Transformer(トランスフォーマー)は、自己注意(Self-Attention)機構を中心に、系列データの関係を捉える深層学習のアーキテクチャです。本記事は誤差逆伝播法の学習手順ではなく、構造とLLMとの関係——なぜ現代の言語モデルの土台になったか——に焦点を当てます。
試験で問われる見方
定義の骨格は「自己注意機構を用いて系列内の関係を捉える深層学習モデル」(TF-0108)。現代のLLMの基盤として重要、という文脈で出ます。
誤答では、位置エンコーディング=個人情報の匿名加工(TF-0112)、GPT=GANの生成器・識別器(TF-0140)、Transformer=ChatGPTなど、別概念のすり替えに注意してください。
Transformerとは
Transformerは2017年頃に提案されたアーキテクチャで、機械翻訳などのエンコーダ・デコーダ構造として知られています。その後、デコーダのみの大規模言語モデル(GPT系列)や、エンコーダのみのモデル(BERT系列)など、派生が広がりました。
試験では層の詳細より、Self-Attentionで文脈の依存を捉えることと、LLMの基盤であることが押さえ目標です。
自己注意機構
Attention(注意)は、入力系列の中でどの部分を重視するかに重みを付ける仕組みです。Self-Attentionは、同じ系列内の要素同士の関係を見ます。
例えば「彼はりんごを食べ、それを片付けた」の「それ」が何を指すか——遠い位置の語同士も、ある程度まとめて関連づけられるのが利点です(G-295)。
「パディング値を必ず1にするルール」など、Attentionの誤った説明が×になる問題もあります(G-295のD選択肢)。
構成要素(試験向け)
細部は試験範囲外のことも多いですが、名前だけ遭遇しやすい要素です。
| 要素 | 役割(ざっくり) |
|---|---|
| Multi-Head Attention | 複数の注意の視点を並列に計算 |
| 位置エンコーディング | 語順・位置情報をモデルに与える(匿名加工ではない:TF-0112) |
| Feed-Forward Network(FFN) | 各位置で非線形変換 |
| 残差接続・層正規化 | 学習の安定化 |
RNNとの対比
| RNN / LSTM | Transformer | |
|---|---|---|
| 系列の扱い | 時系列に沿って順次処理 | 注意機構で並列的に関係を計算 |
| 長距離依存 | 勾配消失などで苦労しやすい | Attentionで直接つなぎやすい |
| 試験 | 古典的系列モデル | 現代LLMの基盤(LLM) |
LLM・GPTとの関係
LLMは大規模な言語モデルというモデルのクラス、Transformerはその中核になりうるネットワーク構造です。GPTはTransformerを基盤とする自己回帰型の言語モデル系列として説明されます(TF-0140)。構造の詳細はGPTアーキテクチャを参照してください。
| 層 | 例 |
|---|---|
| アーキテクチャ | Transformer |
| モデル | GPT、BERT、LLM |
| サービス | ChatGPTなど |