モデル・技術

Transformerブロックとは?AttentionとFFNをひと塊に——積み上げる基本レゴ

読み:とらんすふぉーまーぶろっく / 英:Transformer Block

更新日: 読了目安:約7分

Transformerブロックは、Transformerを構成する基本の積み木——Multi-Head AttentionFeed-Forward Network(FFN)を、残差接続レイヤー正規化で挟んだひと塊——です。LLMの「96層」はしばしばこのブロックを96回積んだことを指します。本記事は全体アーキテクチャの歴史より、1ブロックの中身に焦点を当てます。

試験で問われる見方

Transformerブロック単独の名前は出題頻度は低いですが、構成要素としてMulti-Head Attentionを持つ(G-252)、Self-Attentionで系列内の関係を扱う(G-252のA)——というTransformerの説明にブロックの中身が直結します。

Multi-Head Attentionは複数の観点から依存関係を捉える(G-256)。誤答では、Transformer=RNNの再帰だけ(G-252のD)——ブロックがAttention中心であることを忘れないことが得点源です。

2つのサブ層

典型のTransformerブロックは、だいたい2つのサブ層から成ります。

サブ層役割試験の接点
Multi-Head Self-Attention系列内のどの位置を相互に参照するかG-252、G-256、G-295
Feed-Forward Network(FFN)各位置のベクトルを非線形変換(GELUなど)Transformerの構成要素として理解

Attentionが位置間の関係を混ぜ合わせ、FFNが各位置の表現を個別に加工する——この2拍子が1ブロックの芯です。どちらか一方だけでは、Transformerらしい処理になりません。

残差と正規化

各サブ層の前後には、だいたい次の2つが付きます。

  • 残差接続(Residual Connection) — サブ層の入力を出力に足す。深いネットでも勾配が届きやすくする(G-235のResNetと同型の発想)
  • レイヤー正規化(Layer Normalization) — サンプル内の特徴を正規化し学習を安定化(G-224G-226

図では「Add & Norm」とまとめて書かれることが多いです。試験では数式より、「残差で深く、正規化で安定」——この役割分担が押さえ目標です。

積み重ねで深くする

1ブロックだけでは表現力が足りません。同じのブロックを何層も積み重ね、層が深いほど抽象度の高い特徴を学べるようにします。

  1. 浅い層 — 局所的な語法・近接関係
  2. 中間層 — 句・節レベルの構造
  3. 深い層 — 文脈全体の意味・タスク固有の表現

GPTやBERTの「層数」——12層、24層、96層——は、このブロックの個数と読み替えられることが多いです。パラメータ数の大半はFFN側に載る、という話も層を重ねた結果として出てきます。

エンコーダとデコーダ

ブロックのは共通ですが、エンコーダ用とデコーダ用でAttentionの種類が変わります。

ブロックの場所Attentionの違い
エンコーダSelf-Attention(双方向に系列内を見る)
デコーダMasked Self-Attention(未来のトークンを見ない)+必要ならCross-Attention

BERTはエンコーダブロックの積み重ね、GPTはデコーダブロックの積み重ね——ブロックは同族、積み方が違う——という整理が試験でも使えます(TF-425)。

Transformer全体との違い

観点TransformerブロックTransformer全体
スコープ1層分の繰り返し単位モデル全体のアーキテクチャ
含むものAttention+FFN+残差+正規化上記の積み重ね+埋め込み・位置情報・入出力
比喩レゴの基本ブロック完成した城
試験G-252・G-256の構成要素TF-0108の定義

Transformer記事が「なぜLLMの基盤か」を語るなら、本記事は「1層の中で何が起きているか」——深さの方向にズームした説明です。

すり替えに注意

誤った説明正しい理解
ブロック=Transformer全体構成単位 vs アーキテクチャ全体
ブロック=RNNSelf-Attention中心 vs 逐次の隠れ状態(G-252)
ブロックはAttentionのみFFNも必須の半分
Multi-Head=匿名加工複数視点の注意 vs 個人情報制度(G-256のD)
レイヤー正規化=ドロップアウト分布の正規化 vs ユニット無効化の正則化(G-299)
位置エンコーディング=各ブロック内のみ入力側で付与が典型(TF-0112は別概念のすり替え)

よくある質問

Transformerブロックとは何ですか?

Self-Attention(多くはMulti-Head Attention)とFeed-Forward Network(FFN)の2つのサブ層を、残差接続とレイヤー正規化で挟んだ、Transformerを構成する基本単位です。同じ形のブロックを何層も積み重ねて深いモデルにします。

TransformerブロックとTransformer全体は同じですか?

同じではありません。Transformerブロックはモデルを構成する繰り返し単位(レゴの1パーツ)です。Transformer全体には、ブロックの積み重ねに加え、入力埋め込み、位置エンコーディング、エンコーダ・デコーダの構成なども含まれます。

TransformerブロックはRNNの再帰層ですか?

いいえ。TransformerブロックはSelf-AttentionとFFNを中心とした並列処理の単位です。RNNのように時刻ごとに隠れ状態を逐次更新する再帰結合だけで構成されるわけではありません(G-252)。