モデル・技術

レイヤー正規化とは?サンプル内で整える——バッチに頼らないTransformerの正規化

読み:れいやーせいきか / 英:Layer Normalization(LN)

更新日: 読了目安:約6分

レイヤー正規化(Layer Normalization)は、各サンプル内の特徴次元で中間層の出力を正規化し、学習を安定化する技法です。バッチ正規化が「横の仲間(ミニバッチ)」の統計を使うのに対し、レイヤー正規化は「縦の1本(サンプル内)」だけで整える。本記事は数式の導出ではなく、「なぜTransformerはバッチではなく層で正規化するか」に焦点を当てます。

統計を取る軸の違い

正規化層の設計で最も重要なのは、平均・分散をどの次元で計算するかです。試験ではこの軸の違いが頻出です(G-224)。

手法統計の軸イメージ
バッチ正規化ミニバッチ内のサンプル間同じ層の「横並びのデータ」で平均を取る
レイヤー正規化各サンプル内の特徴方向1サンプル内の「縦の特徴ベクトル」で平均を取る

レイヤー正規化はバッチの大きさに依存しない——ミニバッチが1件でも、サンプル内に十分な特徴次元があれば統計を計算できます。これが系列モデルとの相性の良さにつながります。

レイヤー正規化の仕組み

試験で問われる定義の骨格は次のとおりです(TF-089)。

  • 対象 — ある層の中間表現(活性値)
  • 範囲1サンプル内の全特徴(層の出力次元)にわたって平均・分散を計算
  • 目的 — 分布を整え、学習の安定化に寄与(G-222

正規化後、学習可能なスケール・シフトパラメータで表現力を戻す——という流れはバッチ正規化と同型です。違いは統計の取り方だけ、と整理すると混同しにくくなります。

Transformerでの位置づけ

原論文のTransformerでは、各サブ層のあとに残差接続+レイヤー正規化が置かれます。Attentionブロックの直後、Feed-Forwardの直後——いずれも「層の出力を整えてから次へ渡す」役割です。

Transformerがレイヤー正規化を好む理由として、試験では次が正解になります(G-226)。

ミニバッチサイズに依存しにくく、系列モデルでも各サンプル内の特徴を正規化しやすいため

可変長の系列(文の長さがバラバラ)や、バッチサイズが小さい学習では、バッチ正規化の統計が不安定になりやすい——という文脈とセットで覚えると実感が湧きます(G-310)。

バッチ正規化との対比

観点バッチ正規化レイヤー正規化
統計の取り方ミニバッチ内各サンプル内
バッチサイズ依存小さいと不安定になりうる依存しにくい
向きやすいモデルCNNなどTransformerRNN
試験の組み合わせ(あ)バッチ正規化(い)レイヤー正規化(G-224)

正則化とは別物です。レイヤー正規化は分布の整備、正則化は過学習抑制——名称が似ているため混同注意(G-299TF-090)。

試験で押さえるポイント

  • 定義 — 各サンプル内の特徴方向で正規化(TF-089)
  • 用途Transformerなどで広く使われる
  • 利点 — ミニバッチサイズに依存しにくい(G-226)
  • 対比 — バッチ正規化=ミニバッチ内、レイヤー正規化=サンプル内(G-224)

演習で確認する

G検定:TF-089G-224G-226G-225G-299G-310

すり替えに注意

誤った説明正しい理解
レイヤー正規化=バッチ正規化統計を取る軸が異なる(G-224)
レイヤー正規化=畳み込み層正規化層。畳み込みとは別(G-226のB)
レイヤー正規化=正則化学習安定化 vs 過学習抑制(G-299)
レイヤー正規化=方策勾配法強化学習の更新手法ではない(G-226のD)
(あ)(い)の対応を逆にする(あ)バッチ正規化、(い)レイヤー正規化が正(G-224)

よくある質問

レイヤー正規化とバッチ正規化の違いは?

バッチ正規化はミニバッチ内のサンプル間で統計を取ります。レイヤー正規化は各サンプル内の特徴方向で正規化するため、ミニバッチサイズに依存しにくく、Transformerなどの系列モデルで広く使われます(G-224TF-089)。

Transformerでレイヤー正規化が使われる理由は?

系列長やバッチサイズが変わっても、サンプルごとに層内の特徴を正規化できるためです。ミニバッチが小さい・可変長の学習でも統計が安定しやすい点が試験の要点です(G-226)。

レイヤー正規化は正則化ですか?

いいえ。レイヤー正規化は正規化層の一種で、中間表現の分布を整えて学習を安定化するのが主目的です。L1/L2やドロップアウトなどの正則化(過学習抑制)とは目的が異なります(G-299)。