Transformer（トランスフォーマー）とは？自己注意・LLMの基盤

Q: TransformerとLLMは同じ？

同じではありません。Transformerはアーキテクチャ（構造）、LLMはその構造を用いた大規模言語モデルです。

Transformer（トランスフォーマー）は、自己注意（Self-Attention）機構を中心に、系列データの関係を捉える深層学習のアーキテクチャです。本記事は誤差逆伝播法の学習手順ではなく、構造とLLMとの関係——なぜ現代の言語モデルの土台になったか——に焦点を当てます。

試験で問われる見方

定義の骨格は「自己注意機構を用いて系列内の関係を捉える深層学習モデル」（TF-0108）。現代のLLMの基盤として重要、という文脈で出ます。

誤答では、位置エンコーディング＝個人情報の匿名加工（TF-0112）、GPT＝GANの生成器・識別器（TF-0140）、Transformer＝ChatGPTなど、別概念のすり替えに注意してください。

演習で確認する

生成AIパスポート：TF-0108、TF-0112、TF-0140、HQ-0284

G検定：G-295（Attention）、G-443（勾配と連鎖律は別論点）

Transformerとは

Transformerは2017年頃に提案されたアーキテクチャで、機械翻訳などのエンコーダ・デコーダ構造として知られています。その後、デコーダのみの大規模言語モデル（GPT系列）や、エンコーダのみのモデル（BERT系列）など、派生が広がりました。

試験では層の詳細より、Self-Attentionで文脈の依存を捉えることと、LLMの基盤であることが押さえ目標です。

自己注意機構

Attention（注意）は、入力系列の中でどの部分を重視するかに重みを付ける仕組みです。Self-Attentionは、同じ系列内の要素同士の関係を見ます。

例えば「彼はりんごを食べ、それを片付けた」の「それ」が何を指すか——遠い位置の語同士も、ある程度まとめて関連づけられるのが利点です（G-295）。

「パディング値を必ず1にするルール」など、Attentionの誤った説明が×になる問題もあります（G-295のD選択肢）。

構成要素（試験向け）

細部は試験範囲外のことも多いですが、名前だけ遭遇しやすい要素です。

要素	役割（ざっくり）
Multi-Head Attention	複数の注意の視点を並列に計算
位置エンコーディング	語順・位置情報をモデルに与える（匿名加工ではない：TF-0112）。ALiBiはAttentionへの線形バイアスで代える設計
Feed-Forward Network（FFN）	各位置で非線形変換
残差接続・層正規化	学習の安定化（レイヤー正規化）

RNNとの対比

	RNN / LSTM	Transformer
系列の扱い	時系列に沿って順次処理	注意機構で並列的に関係を計算
長距離依存	勾配消失などで苦労しやすい	Attentionで直接つなぎやすい
試験	古典的系列モデル	現代LLMの基盤（LLM）

LLM・GPTとの関係

LLMは大規模な言語モデルというモデルのクラス、Transformerはその中核になりうるネットワーク構造です。GPTはTransformerを基盤とする自己回帰型の言語モデル系列として説明されます（TF-0140）。構造の詳細はGPTアーキテクチャを参照してください。

層	例
アーキテクチャ	Transformer
モデル	GPT、BERT、LLM
サービス	ChatGPTなど

学習の仕組みは誤差逆伝播法、振る舞い調整はアライメント、効率適応はLoRAなど、別の記事で補完します。

すり替えに注意

誤った説明	正しい理解
Transformer＝ChatGPT	アーキテクチャ vs サービス
位置エンコーディング＝匿名加工	語順・位置情報の付与（TF-0112）
GPT＝GANの生成器・識別器	言語モデル系列（TF-0140）
Transformer＝Attentionだけ	FFN・位置符号化等も含む

よくある質問

TransformerとLLMは同じ？

同じではありません。Transformerは構造、LLMは大規模言語モデルです。多くのLLMがTransformer系です。

位置エンコーディングは個人情報の匿名加工？

いいえ。系列の位置情報を与える技術です（TF-0112）。

画像生成にも使われる？

はい。ViTなど画像をパッチ列としてTransformerに入れる手法もあります。テキスト画像生成とも関連します。

決定木やn-gramと混同しないには？

LLMの記事で「LLM≠決定木」「LLM≠n-gram」の対比を確認してください。