レイヤー正規化(Layer Normalization)は、各サンプル内の特徴次元で中間層の出力を正規化し、学習を安定化する技法です。バッチ正規化が「横の仲間(ミニバッチ)」の統計を使うのに対し、レイヤー正規化は「縦の1本(サンプル内)」だけで整える。本記事は数式の導出ではなく、「なぜTransformerはバッチではなく層で正規化するか」に焦点を当てます。
統計を取る軸の違い
正規化層の設計で最も重要なのは、平均・分散をどの次元で計算するかです。試験ではこの軸の違いが頻出です(G-224)。
| 手法 | 統計の軸 | イメージ |
|---|---|---|
| バッチ正規化 | ミニバッチ内のサンプル間 | 同じ層の「横並びのデータ」で平均を取る |
| レイヤー正規化 | 各サンプル内の特徴方向 | 1サンプル内の「縦の特徴ベクトル」で平均を取る |
レイヤー正規化はバッチの大きさに依存しない——ミニバッチが1件でも、サンプル内に十分な特徴次元があれば統計を計算できます。これが系列モデルとの相性の良さにつながります。
レイヤー正規化の仕組み
試験で問われる定義の骨格は次のとおりです(TF-089)。
- 対象 — ある層の中間表現(活性値)
- 範囲 — 1サンプル内の全特徴(層の出力次元)にわたって平均・分散を計算
- 目的 — 分布を整え、学習の安定化に寄与(G-222)
正規化後、学習可能なスケール・シフトパラメータで表現力を戻す——という流れはバッチ正規化と同型です。違いは統計の取り方だけ、と整理すると混同しにくくなります。
Transformerでの位置づけ
原論文のTransformerでは、各サブ層のあとに残差接続+レイヤー正規化が置かれます。Attentionブロックの直後、Feed-Forwardの直後——いずれも「層の出力を整えてから次へ渡す」役割です。
Transformerがレイヤー正規化を好む理由として、試験では次が正解になります(G-226)。
ミニバッチサイズに依存しにくく、系列モデルでも各サンプル内の特徴を正規化しやすいため
可変長の系列(文の長さがバラバラ)や、バッチサイズが小さい学習では、バッチ正規化の統計が不安定になりやすい——という文脈とセットで覚えると実感が湧きます(G-310)。
バッチ正規化との対比
| 観点 | バッチ正規化 | レイヤー正規化 |
|---|---|---|
| 統計の取り方 | ミニバッチ内 | 各サンプル内 |
| バッチサイズ依存 | 小さいと不安定になりうる | 依存しにくい |
| 向きやすいモデル | CNNなど | Transformer、RNN系 |
| 試験の組み合わせ | (あ)バッチ正規化 | (い)レイヤー正規化(G-224) |
正則化とは別物です。レイヤー正規化は分布の整備、正則化は過学習抑制——名称が似ているため混同注意(G-299、TF-090)。
試験で押さえるポイント
- 定義 — 各サンプル内の特徴方向で正規化(TF-089)
- 用途 — Transformerなどで広く使われる
- 利点 — ミニバッチサイズに依存しにくい(G-226)
- 対比 — バッチ正規化=ミニバッチ内、レイヤー正規化=サンプル内(G-224)
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| レイヤー正規化=バッチ正規化 | 統計を取る軸が異なる(G-224) |
| レイヤー正規化=畳み込み層 | 正規化層。畳み込みとは別(G-226のB) |
| レイヤー正規化=正則化 | 学習安定化 vs 過学習抑制(G-299) |
| レイヤー正規化=方策勾配法 | 強化学習の更新手法ではない(G-226のD) |
| (あ)(い)の対応を逆にする | (あ)バッチ正規化、(い)レイヤー正規化が正(G-224) |
よくある質問
レイヤー正規化とバッチ正規化の違いは?
バッチ正規化はミニバッチ内のサンプル間で統計を取ります。レイヤー正規化は各サンプル内の特徴方向で正規化するため、ミニバッチサイズに依存しにくく、Transformerなどの系列モデルで広く使われます(G-224、TF-089)。
Transformerでレイヤー正規化が使われる理由は?
系列長やバッチサイズが変わっても、サンプルごとに層内の特徴を正規化できるためです。ミニバッチが小さい・可変長の学習でも統計が安定しやすい点が試験の要点です(G-226)。
レイヤー正規化は正則化ですか?
いいえ。レイヤー正規化は正規化層の一種で、中間表現の分布を整えて学習を安定化するのが主目的です。L1/L2やドロップアウトなどの正則化(過学習抑制)とは目的が異なります(G-299)。