Transformerブロックは、Transformerを構成する基本の積み木——Multi-Head AttentionとFeed-Forward Network(FFN)を、残差接続とレイヤー正規化で挟んだひと塊——です。LLMの「96層」はしばしばこのブロックを96回積んだことを指します。本記事は全体アーキテクチャの歴史より、1ブロックの中身に焦点を当てます。
試験で問われる見方
Transformerブロック単独の名前は出題頻度は低いですが、構成要素としてMulti-Head Attentionを持つ(G-252)、Self-Attentionで系列内の関係を扱う(G-252のA)——というTransformerの説明にブロックの中身が直結します。
Multi-Head Attentionは複数の観点から依存関係を捉える(G-256)。誤答では、Transformer=RNNの再帰だけ(G-252のD)——ブロックがAttention中心であることを忘れないことが得点源です。
演習で確認する
G検定:G-252(Transformerの構成)、G-256(Multi-Head Attention)、G-295(Attention)、G-224(レイヤー正規化)
生成AIパスポート:TF-0108(Transformerの定義)
2つのサブ層
典型のTransformerブロックは、だいたい2つのサブ層から成ります。
| サブ層 | 役割 | 試験の接点 |
|---|---|---|
| Multi-Head Self-Attention | 系列内のどの位置を相互に参照するか | G-252、G-256、G-295 |
| Feed-Forward Network(FFN) | 各位置のベクトルを非線形変換(GELUなど) | Transformerの構成要素として理解 |
Attentionが位置間の関係を混ぜ合わせ、FFNが各位置の表現を個別に加工する——この2拍子が1ブロックの芯です。どちらか一方だけでは、Transformerらしい処理になりません。
残差と正規化
各サブ層の前後には、だいたい次の2つが付きます。
- 残差接続(Residual Connection) — サブ層の入力を出力に足す。深いネットでも勾配が届きやすくする(G-235のResNetと同型の発想)
- レイヤー正規化(Layer Normalization) — サンプル内の特徴を正規化し学習を安定化(G-224、G-226)
図では「Add & Norm」とまとめて書かれることが多いです。試験では数式より、「残差で深く、正規化で安定」——この役割分担が押さえ目標です。
積み重ねで深くする
1ブロックだけでは表現力が足りません。同じ形のブロックを何層も積み重ね、層が深いほど抽象度の高い特徴を学べるようにします。
- 浅い層 — 局所的な語法・近接関係
- 中間層 — 句・節レベルの構造
- 深い層 — 文脈全体の意味・タスク固有の表現
GPTやBERTの「層数」——12層、24層、96層——は、このブロックの個数と読み替えられることが多いです。パラメータ数の大半はFFN側に載る、という話も層を重ねた結果として出てきます。
エンコーダとデコーダ
ブロックの形は共通ですが、エンコーダ用とデコーダ用でAttentionの種類が変わります。
| ブロックの場所 | Attentionの違い |
|---|---|
| エンコーダ | Self-Attention(双方向に系列内を見る) |
| デコーダ | Masked Self-Attention(未来のトークンを見ない)+必要ならCross-Attention |
BERTはエンコーダブロックの積み重ね、GPTはデコーダブロックの積み重ね——ブロックは同族、積み方が違う——という整理が試験でも使えます(TF-425)。
Transformer全体との違い
| 観点 | Transformerブロック | Transformer全体 |
|---|---|---|
| スコープ | 1層分の繰り返し単位 | モデル全体のアーキテクチャ |
| 含むもの | Attention+FFN+残差+正規化 | 上記の積み重ね+埋め込み・位置情報・入出力 |
| 比喩 | レゴの基本ブロック | 完成した城 |
| 試験 | G-252・G-256の構成要素 | TF-0108の定義 |
Transformer記事が「なぜLLMの基盤か」を語るなら、本記事は「1層の中で何が起きているか」——深さの方向にズームした説明です。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| ブロック=Transformer全体 | 構成単位 vs アーキテクチャ全体 |
| ブロック=RNN層 | Self-Attention中心 vs 逐次の隠れ状態(G-252) |
| ブロックはAttentionのみ | FFNも必須の半分 |
| Multi-Head=匿名加工 | 複数視点の注意 vs 個人情報制度(G-256のD) |
| レイヤー正規化=ドロップアウト | 分布の正規化 vs ユニット無効化の正則化(G-299) |
| 位置エンコーディング=各ブロック内のみ | 入力側で付与が典型(TF-0112は別概念のすり替え) |
よくある質問
Transformerブロックとは何ですか?
Self-Attention(多くはMulti-Head Attention)とFeed-Forward Network(FFN)の2つのサブ層を、残差接続とレイヤー正規化で挟んだ、Transformerを構成する基本単位です。同じ形のブロックを何層も積み重ねて深いモデルにします。
TransformerブロックとTransformer全体は同じですか?
同じではありません。Transformerブロックはモデルを構成する繰り返し単位(レゴの1パーツ)です。Transformer全体には、ブロックの積み重ねに加え、入力埋め込み、位置エンコーディング、エンコーダ・デコーダの構成なども含まれます。
TransformerブロックはRNNの再帰層ですか?
いいえ。TransformerブロックはSelf-AttentionとFFNを中心とした並列処理の単位です。RNNのように時刻ごとに隠れ状態を逐次更新する再帰結合だけで構成されるわけではありません(G-252)。