Leaky ReLUとは？負の領域に細い勾配——死んだニューロンへの一滴の救い

Leaky ReLUは、負の入力でも完全にゼロにしない活性化関数です。標準のReLUが負の領域を切り落とすと、ユニットが恒久的に出力0のまま——死んだニューロン——になりやすい。Leaky ReLUは負の側に細い傾き（α）を残し、勾配の一滴を通す——本記事はαの数値暗記より、「ReLUのどこを直そうとしたか」に焦点を当てます。

ReLUの弱点

ReLUは入力が正ならそのまま、0以下なら0を出力します（TF-384、G-158）。計算が単純で勾配消失を緩和しやすい——AlexNet以降の定番です。

しかし負の領域では勾配が完全に0。学習中にユニットが一度負側ばかりに入ると、以降更新されず死んだニューロンになることがあります。深いネットでは勾配消失・爆発とも関連して、活性化の選び方が学習安定性に効きます。

Leaky ReLUの形

入力 x	ReLU	Leaky ReLU
x > 0	x	x（同じ）
x ≤ 0	0（勾配も0）	αx（小さな負の傾き、勾配はα）

αは0.01など小さな正の定数——「Leaky（漏れる）」は、負の領域からわずかに勾配が漏れるイメージです。試験では式より、負の領域を完全に切らないReLUの改良と覚えれば十分です。

活性化関数の系譜

TF-382：活性化は非線形性を与える——同じ目的で、形だけが違う仲間です。

関数	負の領域	試験向けの整理
ReLU	完全に0	CNNの古典。シンプル（G-011）
Leaky ReLU	細い傾きαx	死んだニューロン対策
GELU	滑らかな曲線	TransformerのFFN向け
シグモイド/tanh	飽和しやすい	勾配消失しやすい（G-122）
ソフトマックス	—	出力層の確率化（G-156）。隠れ層ではない

Leaky ReLUはGELUのような「滑らかさ」ではなく、ReLUの折れ目を少し傾ける——最小変更の改良、という位置づけです。

どこで使われるか

主にCNNや全結合ネットの隠れ層で、ReLUの代替として選ばれます。TransformerのFFNではGELUが主流——アーキテクチャ世代で定番が変わる、と整理します。

He初期化はReLU向けの重みの出発点、Leaky ReLUは順伝播中の非線形——初期化と活性化は別のノブです（G-160：活性化＝非線形性）。

試験で押さえるポイント

定義 — 負の入力に小さな傾きを残すReLUの改良活性化
目的 — 死んだニューロン・負領域の勾配ゼロを緩和
対比 — ReLU＝負を完全カット、GELU＝滑らか、ソフトマックス＝出力層
すり替え回避 — 初期化・損失関数・正則化ではない

演習で確認する

G検定：G-158、TF-384、TF-382、G-160、G-196、G-011

すり替えに注意

誤った説明	正しい理解
Leaky ReLU＝ReLU	負領域の扱いが異なる改良版
Leaky ReLU＝GELU	折れ目を傾ける vs 滑らかな曲線
Leaky ReLU＝He初期化	活性化関数 vs 重み初期化
Leaky ReLU＝ソフトマックス	隠れ層の活性化 vs 出力層の確率化
Leaky ReLU＝ドロップアウト	非線形変換 vs 正則化

よくある質問

Leaky ReLUは何をする活性化関数ですか？

入力が正ならReLUと同様にそのまま通し、負なら入力に小さな係数αを掛けた値を出力する活性化関数です。負の領域でも勾配が完全にゼロにならないため、ReLUで起きやすい死んだニューロンを減らしやすいと説明されます。

Leaky ReLUとReLUは同じですか？

同じではありません。ReLUは負の入力を常に0に切り落とします。Leaky ReLUは負の領域に細い傾きを残し、わずかな勾配を通します。正の領域の振る舞いは近いですが、負の領域の扱いが異なります。

Leaky ReLUとHe初期化は同じですか？

同じではありません。Leaky ReLUは隠れ層などで使う活性化関数であり、He初期化は学習開始前の重みの分散設定です。どちらもReLU系ネットワークの学習安定化に関わりますが、学習中の非線形変換 vs 学習前の初期化という役割が異なります。