Leaky ReLUは、負の入力でも完全にゼロにしない活性化関数です。標準のReLUが負の領域を切り落とすと、ユニットが恒久的に出力0のまま——死んだニューロン——になりやすい。Leaky ReLUは負の側に細い傾き(α)を残し、勾配の一滴を通す——本記事はαの数値暗記より、「ReLUのどこを直そうとしたか」に焦点を当てます。
ReLUの弱点
ReLUは入力が正ならそのまま、0以下なら0を出力します(TF-384、G-158)。計算が単純で勾配消失を緩和しやすい——AlexNet以降の定番です。
しかし負の領域では勾配が完全に0。学習中にユニットが一度負側ばかりに入ると、以降更新されず死んだニューロンになることがあります。深いネットでは勾配消失・爆発とも関連して、活性化の選び方が学習安定性に効きます。
Leaky ReLUの形
| 入力 x | ReLU | Leaky ReLU |
|---|---|---|
| x > 0 | x | x(同じ) |
| x ≤ 0 | 0(勾配も0) | αx(小さな負の傾き、勾配はα) |
αは0.01など小さな正の定数——「Leaky(漏れる)」は、負の領域からわずかに勾配が漏れるイメージです。試験では式より、負の領域を完全に切らないReLUの改良と覚えれば十分です。
活性化関数の系譜
TF-382:活性化は非線形性を与える——同じ目的で、形だけが違う仲間です。
| 関数 | 負の領域 | 試験向けの整理 |
|---|---|---|
| ReLU | 完全に0 | CNNの古典。シンプル(G-011) |
| Leaky ReLU | 細い傾きαx | 死んだニューロン対策 |
| GELU | 滑らかな曲線 | TransformerのFFN向け |
| シグモイド/tanh | 飽和しやすい | 勾配消失しやすい(G-122) |
| ソフトマックス | — | 出力層の確率化(G-156)。隠れ層ではない |
Leaky ReLUはGELUのような「滑らかさ」ではなく、ReLUの折れ目を少し傾ける——最小変更の改良、という位置づけです。
どこで使われるか
主にCNNや全結合ネットの隠れ層で、ReLUの代替として選ばれます。TransformerのFFNではGELUが主流——アーキテクチャ世代で定番が変わる、と整理します。
He初期化はReLU向けの重みの出発点、Leaky ReLUは順伝播中の非線形——初期化と活性化は別のノブです(G-160:活性化=非線形性)。
試験で押さえるポイント
- 定義 — 負の入力に小さな傾きを残すReLUの改良活性化
- 目的 — 死んだニューロン・負領域の勾配ゼロを緩和
- 対比 — ReLU=負を完全カット、GELU=滑らか、ソフトマックス=出力層
- すり替え回避 — 初期化・損失関数・正則化ではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| Leaky ReLU=ReLU | 負領域の扱いが異なる改良版 |
| Leaky ReLU=GELU | 折れ目を傾ける vs 滑らかな曲線 |
| Leaky ReLU=He初期化 | 活性化関数 vs 重み初期化 |
| Leaky ReLU=ソフトマックス | 隠れ層の活性化 vs 出力層の確率化 |
| Leaky ReLU=ドロップアウト | 非線形変換 vs 正則化 |
よくある質問
Leaky ReLUは何をする活性化関数ですか?
入力が正ならReLUと同様にそのまま通し、負なら入力に小さな係数αを掛けた値を出力する活性化関数です。負の領域でも勾配が完全にゼロにならないため、ReLUで起きやすい死んだニューロンを減らしやすいと説明されます。
Leaky ReLUとReLUは同じですか?
同じではありません。ReLUは負の入力を常に0に切り落とします。Leaky ReLUは負の領域に細い傾きを残し、わずかな勾配を通します。正の領域の振る舞いは近いですが、負の領域の扱いが異なります。
Leaky ReLUとHe初期化は同じですか?
同じではありません。Leaky ReLUは隠れ層などで使う活性化関数であり、He初期化は学習開始前の重みの分散設定です。どちらもReLU系ネットワークの学習安定化に関わりますが、学習中の非線形変換 vs 学習前の初期化という役割が異なります。