モデル・技術

He初期化とは?ReLUに合わせて分散を整える——学習開始時の勾配を守る初期化

読み:エイチイーしょきか / 英:He Initialization(Kaiming Initialization)

更新日: 読了目安:約6分

He初期化(Kaiming Initialization)は、ReLU系活性化関数を前提に、ニューラルネットワーク重みの初期分散を調整する手法です。学習は誤差逆伝播で進みますが、初期重みが不適切だと層を重ねた瞬間に信号や勾配が縮みすぎ・膨らみすぎ——He初期化は出発点のスケールを整える——本記事は分散の式より、「なぜReLUの時代に必要になったか」に焦点を当てます。

初期化が効く理由

深いネットワークでは、順伝播の活性化の大きさと逆伝播の勾配の大きさが層ごとに変化します。初期重みが大きすぎれば勾配爆発、小さすぎれば勾配消失——学習がまともに始まりません。

初期化は学習アルゴリズムそのものではなく、最初の重みの与え方です。G-453の誤答選択肢「重みをランダムに初期化する手法」は、サンプリングバイアスとすり替えられます——He初期化はランダム+分散の理論調整という、より具体的な技法です。

ReLU時代の文脈

AlexNet以降、隠れ層のReLUが標準になりました(G-158TF-384)。

活性化勾配の性質初期化との関係
シグモイド/tanh飽和域で勾配が小さくなりやすいXavier(Glorot)初期化が想定
ReLU正の領域で勾配1、負は0He初期化が想定
ソフトマックス出力層の確率化初期化の話とは別(G-156)

ReLUは勾配消失を緩和しやすい一方、負の入力を切り落とすため、信号の分散の扱いはシグモイド時代とは異なります——He初期化はその差分に対応します。

He初期化の直感

ざっくり言えば、ReLUを通しても層をまたいで分散が極端に変わらないよう、重みの初期スケールを決めます。

  • 入力 — 重みをゼロ近傍のランダム分布からサンプル
  • 調整 — ファンイン(入力側の次元数)などに応じて分散を設定
  • 効果 — 深いCNNでも学習初期の順伝播・逆伝播が安定しやすい

試験では分散の厳密な式より、ReLU向けの重み初期化というラベルで十分なことが多いです。後続のレイヤー正規化やバッチ正規化(G-276)は、学習の分布を整える別の層——初期化は学習前の出発点、と役割を分けます。

Xavier初期化との違い

名前想定する活性化試験向けの整理
Xavier(Glorot)シグモイド・tanh飽和型活性化の時代
He(Kaiming)ReLU系CNN深層化の時代
ゼロ初期化対称性問題で隠れ層に不適

どちらも「ランダム初期化」より一歩進んだ分散設計です。活性化関数を変えたら、初期化の最適解も変わる——という対応関係が試験の要点です。

試験で押さえるポイント

  • 定義ReLU向けの重み初期分散調整
  • 目的 — 深いネットで勾配消失・爆発を抑え、学習を安定化
  • 対比 — Xavier=飽和型、He=ReLU系。活性化≠初期化
  • すり替え回避 — 正則化・バッチ正規化・サンプリングバイアスではない

演習で確認する

G検定:G-158G-124G-196TF-384G-276

すり替えに注意

誤った説明正しい理解
He初期化=ReLU重みの初期設定 vs 活性化関数
He初期化=XavierReLU想定 vs 飽和型想定
He初期化=バッチ正規化学習前 vs 学習中の分布調整
He初期化=サンプリングバイアス重み初期化 vs データ偏り(G-453)
He初期化=損失関数初期重み vs 誤差の定義

よくある質問

He初期化は何ですか?

深いニューラルネットワークの学習開始時に、重みをランダム分布からサンプリングする際の分散設定の一つです。ReLUが正の領域で勾配を保ちやすい性質に合わせ、層を重ねても活性化の分散が極端に縮小・膨張しにくいよう設計されています。

He初期化とXavier初期化は同じですか?

同じではありません。どちらも重みの初期分散を理論的に調整する手法ですが、Xavier(Glorot)初期化はシグモイドやtanhなどの飽和しやすい活性化を想定し、He初期化はReLU系を想定します。活性化の性質に合わせて分散の式が異なります。

He初期化は活性化関数ですか?

いいえ。He初期化は学習前に重みへ値を与える初期化手法であり、ReLUやGELUのような活性化関数そのものではありません。学習の安定化のための出発点の設定です。