GPTアーキテクチャは、Transformerのデコーダ(Decoder)側を中心に積み重ね、次のトークンを順に予測する自己回帰型の言語モデル構造です。本記事はGPTの製品史ではなく、「なぜデコーダのみか」「BERTと何が違うか」——構造の分岐——に焦点を当てます。
試験で問われる見方
○:GPT系はTransformerのデコーダ構造を基盤とし、次のトークン予測で文章生成能力を獲得(TF-427)。自己回帰的な言語モデルとして説明される。
対比:BERTはTransformerのエンコーダを用いた自然言語処理モデル(TF-425)。BERTをGANや画像専用とする説明は×(TF-426)。
デコーダのみの意味
原典のTransformerは機械翻訳向けにエンコーダ+デコーダの二部構成でした。GPT系列はそのうちデコーダブロック(Self-Attention+FFNなど)を深く積み、単一のテキスト列から次を予測する形に特化します。
試験では層数の暗記より、「デコーダ中心の自己回帰生成」というラベルが重要です。
| 構成 | 典型例 | 向き |
|---|---|---|
| エンコーダのみ | BERT | 文全体の理解・分類・埋め込み |
| デコーダのみ | GPT | 左から右へトークン生成 |
| エンコーダ+デコーダ | 翻訳モデル(T5等) | 入力系列→出力系列 |
自己回帰生成の流れ
推論時のイメージ(試験向けの簡略版)です。
- プロンプトをトークン列に変換
- これまでのトークン列を入力し、次の1トークンの確率分布を出力
- サンプリングまたは最尤で1トークンを選び、列の末尾に追加
- 終了条件まで繰り返し(コンテキストウィンドウの範囲内)
BERT(エンコーダ)との対比
| GPT(デコーダ型) | BERT(エンコーダ型) | |
|---|---|---|
| 主な学習 | 次トークン予測(因果的マスク) | マスク言語モデル等(双方向文脈) |
| 得意 | 文章生成・続き書き | 分類・理解・検索向け表現 |
| 生成 | 自己回帰で自然に生成 | 生成は別設計が必要なことが多い |
| 試験 | TF-427 | TF-425 |
どちらもTransformer系ですが、使う側(エンコーダ/デコーダ)と学習目的が異なります。
学習パイプライン
実務・試験の橋渡しとして、よく語られる段階です(詳細は製品により異なります)。
- 事前学習(Pre-training) — 大規模テキストで次トークン予測。汎用の言語能力
- 指示追従・タスク適応 — ファインチューニングや教師付きデータで用途に合わせる
- 人間の好みへの調整 — RLHFなど(アライメント)
- サービス化 — ChatGPTのような対話UI・API
アーキテクチャは構造、RLHFは調整手法、ChatGPTはサービス——層を混同しないでください。