レイヤー正規化とは？サンプル内で整える——バッチに頼らないTransformerの正規化

レイヤー正規化（Layer Normalization）は、各サンプル内の特徴次元で中間層の出力を正規化し、学習を安定化する技法です。バッチ正規化が「横の仲間（ミニバッチ）」の統計を使うのに対し、レイヤー正規化は「縦の1本（サンプル内）」だけで整える。本記事は数式の導出ではなく、「なぜTransformerはバッチではなく層で正規化するか」に焦点を当てます。

統計を取る軸の違い

正規化層の設計で最も重要なのは、平均・分散をどの次元で計算するかです。試験ではこの軸の違いが頻出です（G-224）。

手法	統計の軸	イメージ
バッチ正規化	ミニバッチ内のサンプル間	同じ層の「横並びのデータ」で平均を取る
レイヤー正規化	各サンプル内の特徴方向	1サンプル内の「縦の特徴ベクトル」で平均を取る

レイヤー正規化はバッチの大きさに依存しない——ミニバッチが1件でも、サンプル内に十分な特徴次元があれば統計を計算できます。これが系列モデルとの相性の良さにつながります。

レイヤー正規化の仕組み

試験で問われる定義の骨格は次のとおりです（TF-089）。

対象 — ある層の中間表現（活性値）
範囲 — 1サンプル内の全特徴（層の出力次元）にわたって平均・分散を計算
目的 — 分布を整え、学習の安定化に寄与（G-222）

正規化後、学習可能なスケール・シフトパラメータで表現力を戻す——という流れはバッチ正規化と同型です。違いは統計の取り方だけ、と整理すると混同しにくくなります。

Transformerでの位置づけ

原論文のTransformerでは、各サブ層のあとに残差接続＋レイヤー正規化が置かれます。Attentionブロックの直後、Feed-Forwardの直後——いずれも「層の出力を整えてから次へ渡す」役割です。

Transformerがレイヤー正規化を好む理由として、試験では次が正解になります（G-226）。

ミニバッチサイズに依存しにくく、系列モデルでも各サンプル内の特徴を正規化しやすいため

可変長の系列（文の長さがバラバラ）や、バッチサイズが小さい学習では、バッチ正規化の統計が不安定になりやすい——という文脈とセットで覚えると実感が湧きます（G-310）。

バッチ正規化との対比

観点	バッチ正規化	レイヤー正規化
統計の取り方	ミニバッチ内	各サンプル内
バッチサイズ依存	小さいと不安定になりうる	依存しにくい
向きやすいモデル	CNNなど	Transformer、RNN系
試験の組み合わせ	（あ）バッチ正規化	（い）レイヤー正規化（G-224）

正則化とは別物です。レイヤー正規化は分布の整備、正則化は過学習抑制——名称が似ているため混同注意（G-299、TF-090）。

試験で押さえるポイント

定義 — 各サンプル内の特徴方向で正規化（TF-089）
用途 — Transformerなどで広く使われる
利点 — ミニバッチサイズに依存しにくい（G-226）
対比 — バッチ正規化＝ミニバッチ内、レイヤー正規化＝サンプル内（G-224）

演習で確認する

G検定：TF-089、G-224、G-226、G-225、G-299、G-310

すり替えに注意

誤った説明	正しい理解
レイヤー正規化＝バッチ正規化	統計を取る軸が異なる（G-224）
レイヤー正規化＝畳み込み層	正規化層。畳み込みとは別（G-226のB）
レイヤー正規化＝正則化	学習安定化 vs 過学習抑制（G-299）
レイヤー正規化＝方策勾配法	強化学習の更新手法ではない（G-226のD）
（あ）（い）の対応を逆にする	（あ）バッチ正規化、（い）レイヤー正規化が正（G-224）

よくある質問

レイヤー正規化とバッチ正規化の違いは？

バッチ正規化はミニバッチ内のサンプル間で統計を取ります。レイヤー正規化は各サンプル内の特徴方向で正規化するため、ミニバッチサイズに依存しにくく、Transformerなどの系列モデルで広く使われます（G-224、TF-089）。

Transformerでレイヤー正規化が使われる理由は？

系列長やバッチサイズが変わっても、サンプルごとに層内の特徴を正規化できるためです。ミニバッチが小さい・可変長の学習でも統計が安定しやすい点が試験の要点です（G-226）。

レイヤー正規化は正則化ですか？

いいえ。レイヤー正規化は正規化層の一種で、中間表現の分布を整えて学習を安定化するのが主目的です。L1/L2やドロップアウトなどの正則化（過学習抑制）とは目的が異なります（G-299）。