He初期化(Kaiming Initialization)は、ReLU系の活性化関数を前提に、ニューラルネットワークの重みの初期分散を調整する手法です。学習は誤差逆伝播で進みますが、初期重みが不適切だと層を重ねた瞬間に信号や勾配が縮みすぎ・膨らみすぎ——He初期化は出発点のスケールを整える——本記事は分散の式より、「なぜReLUの時代に必要になったか」に焦点を当てます。
初期化が効く理由
深いネットワークでは、順伝播の活性化の大きさと逆伝播の勾配の大きさが層ごとに変化します。初期重みが大きすぎれば勾配爆発、小さすぎれば勾配消失——学習がまともに始まりません。
初期化は学習アルゴリズムそのものではなく、最初の重みの与え方です。G-453の誤答選択肢「重みをランダムに初期化する手法」は、サンプリングバイアスとすり替えられます——He初期化はランダム+分散の理論調整という、より具体的な技法です。
ReLU時代の文脈
AlexNet以降、隠れ層のReLUが標準になりました(G-158、TF-384)。
| 活性化 | 勾配の性質 | 初期化との関係 |
|---|---|---|
| シグモイド/tanh | 飽和域で勾配が小さくなりやすい | Xavier(Glorot)初期化が想定 |
| ReLU | 正の領域で勾配1、負は0 | He初期化が想定 |
| ソフトマックス | 出力層の確率化 | 初期化の話とは別(G-156) |
ReLUは勾配消失を緩和しやすい一方、負の入力を切り落とすため、信号の分散の扱いはシグモイド時代とは異なります——He初期化はその差分に対応します。
He初期化の直感
ざっくり言えば、ReLUを通しても層をまたいで分散が極端に変わらないよう、重みの初期スケールを決めます。
- 入力 — 重みをゼロ近傍のランダム分布からサンプル
- 調整 — ファンイン(入力側の次元数)などに応じて分散を設定
- 効果 — 深いCNNでも学習初期の順伝播・逆伝播が安定しやすい
試験では分散の厳密な式より、ReLU向けの重み初期化というラベルで十分なことが多いです。後続のレイヤー正規化やバッチ正規化(G-276)は、学習中の分布を整える別の層——初期化は学習前の出発点、と役割を分けます。
Xavier初期化との違い
| 名前 | 想定する活性化 | 試験向けの整理 |
|---|---|---|
| Xavier(Glorot) | シグモイド・tanh | 飽和型活性化の時代 |
| He(Kaiming) | ReLU系 | CNN深層化の時代 |
| ゼロ初期化 | — | 対称性問題で隠れ層に不適 |
どちらも「ランダム初期化」より一歩進んだ分散設計です。活性化関数を変えたら、初期化の最適解も変わる——という対応関係が試験の要点です。
試験で押さえるポイント
- 定義 — ReLU向けの重み初期分散調整
- 目的 — 深いネットで勾配消失・爆発を抑え、学習を安定化
- 対比 — Xavier=飽和型、He=ReLU系。活性化≠初期化
- すり替え回避 — 正則化・バッチ正規化・サンプリングバイアスではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| He初期化=ReLU | 重みの初期設定 vs 活性化関数 |
| He初期化=Xavier | ReLU想定 vs 飽和型想定 |
| He初期化=バッチ正規化 | 学習前 vs 学習中の分布調整 |
| He初期化=サンプリングバイアス | 重み初期化 vs データ偏り(G-453) |
| He初期化=損失関数 | 初期重み vs 誤差の定義 |
よくある質問
He初期化は何ですか?
深いニューラルネットワークの学習開始時に、重みをランダム分布からサンプリングする際の分散設定の一つです。ReLUが正の領域で勾配を保ちやすい性質に合わせ、層を重ねても活性化の分散が極端に縮小・膨張しにくいよう設計されています。
He初期化とXavier初期化は同じですか?
同じではありません。どちらも重みの初期分散を理論的に調整する手法ですが、Xavier(Glorot)初期化はシグモイドやtanhなどの飽和しやすい活性化を想定し、He初期化はReLU系を想定します。活性化の性質に合わせて分散の式が異なります。
He初期化は活性化関数ですか?
いいえ。He初期化は学習前に重みへ値を与える初期化手法であり、ReLUやGELUのような活性化関数そのものではありません。学習の安定化のための出発点の設定です。