モデル・技術

Leaky ReLUとは?負の領域に細い勾配——死んだニューロンへの一滴の救い

読み:リーキー レクティファイド リニア ユニット / 英:Leaky ReLU

更新日: 読了目安:約6分

Leaky ReLUは、負の入力でも完全にゼロにしない活性化関数です。標準のReLUが負の領域を切り落とすと、ユニットが恒久的に出力0のまま——死んだニューロン——になりやすい。Leaky ReLUは負の側に細い傾き(α)を残し、勾配の一滴を通す——本記事はαの数値暗記より、「ReLUのどこを直そうとしたか」に焦点を当てます。

ReLUの弱点

ReLUは入力が正ならそのまま、0以下なら0を出力します(TF-384G-158)。計算が単純で勾配消失を緩和しやすい——AlexNet以降の定番です。

しかし負の領域では勾配が完全に0。学習中にユニットが一度負側ばかりに入ると、以降更新されず死んだニューロンになることがあります。深いネットでは勾配消失・爆発とも関連して、活性化の選び方が学習安定性に効きます。

Leaky ReLUの形

入力 xReLULeaky ReLU
x > 0xx(同じ)
x ≤ 00(勾配も0)αx(小さな負の傾き、勾配はα)

αは0.01など小さな正の定数——「Leaky(漏れる)」は、負の領域からわずかに勾配が漏れるイメージです。試験では式より、負の領域を完全に切らないReLUの改良と覚えれば十分です。

活性化関数の系譜

TF-382:活性化は非線形性を与える——同じ目的で、形だけが違う仲間です。

関数負の領域試験向けの整理
ReLU完全に0CNNの古典。シンプル(G-011)
Leaky ReLU細い傾きαx死んだニューロン対策
GELU滑らかな曲線TransformerのFFN向け
シグモイド/tanh飽和しやすい勾配消失しやすい(G-122)
ソフトマックス出力層の確率化(G-156)。隠れ層ではない

Leaky ReLUはGELUのような「滑らかさ」ではなく、ReLUの折れ目を少し傾ける——最小変更の改良、という位置づけです。

どこで使われるか

主にCNN全結合ネット隠れ層で、ReLUの代替として選ばれます。TransformerのFFNではGELUが主流——アーキテクチャ世代で定番が変わる、と整理します。

He初期化はReLU向けの重みの出発点、Leaky ReLUは順伝播中の非線形——初期化と活性化は別のノブです(G-160:活性化=非線形性)。

試験で押さえるポイント

  • 定義 — 負の入力に小さな傾きを残すReLUの改良活性化
  • 目的 — 死んだニューロン・負領域の勾配ゼロを緩和
  • 対比 — ReLU=負を完全カット、GELU=滑らか、ソフトマックス=出力層
  • すり替え回避 — 初期化・損失関数・正則化ではない

演習で確認する

G検定:G-158TF-384TF-382G-160G-196G-011

すり替えに注意

誤った説明正しい理解
Leaky ReLU=ReLU負領域の扱いが異なる改良版
Leaky ReLU=GELU折れ目を傾ける vs 滑らかな曲線
Leaky ReLU=He初期化活性化関数 vs 重み初期化
Leaky ReLU=ソフトマックス隠れ層の活性化 vs 出力層の確率化
Leaky ReLU=ドロップアウト非線形変換 vs 正則化

よくある質問

Leaky ReLUは何をする活性化関数ですか?

入力が正ならReLUと同様にそのまま通し、負なら入力に小さな係数αを掛けた値を出力する活性化関数です。負の領域でも勾配が完全にゼロにならないため、ReLUで起きやすい死んだニューロンを減らしやすいと説明されます。

Leaky ReLUとReLUは同じですか?

同じではありません。ReLUは負の入力を常に0に切り落とします。Leaky ReLUは負の領域に細い傾きを残し、わずかな勾配を通します。正の領域の振る舞いは近いですが、負の領域の扱いが異なります。

Leaky ReLUとHe初期化は同じですか?

同じではありません。Leaky ReLUは隠れ層などで使う活性化関数であり、He初期化は学習開始前の重みの分散設定です。どちらもReLU系ネットワークの学習安定化に関わりますが、学習中の非線形変換 vs 学習前の初期化という役割が異なります。