モデル・技術

Transformer(トランスフォーマー)とは?自己注意・LLMの基盤

読み:とらんすふぉーまー / 英:Transformer

更新日: 読了目安:約7分

Transformer(トランスフォーマー)は、自己注意(Self-Attention)機構を中心に、系列データの関係を捉える深層学習のアーキテクチャです。本記事は誤差逆伝播法の学習手順ではなく、構造とLLMとの関係——なぜ現代の言語モデルの土台になったか——に焦点を当てます。

試験で問われる見方

定義の骨格は「自己注意機構を用いて系列内の関係を捉える深層学習モデル」TF-0108)。現代のLLMの基盤として重要、という文脈で出ます。

誤答では、位置エンコーディング=個人情報の匿名加工TF-0112)、GPT=GANの生成器・識別器TF-0140)、Transformer=ChatGPTなど、別概念のすり替えに注意してください。

演習で確認する

生成AIパスポート:TF-0108TF-0112TF-0140HQ-0284

G検定:G-295(Attention)G-443(勾配と連鎖律は別論点)

Transformerとは

Transformerは2017年頃に提案されたアーキテクチャで、機械翻訳などのエンコーダ・デコーダ構造として知られています。その後、デコーダのみの大規模言語モデル(GPT系列)や、エンコーダのみのモデル(BERT系列)など、派生が広がりました。

試験では層の詳細より、Self-Attentionで文脈の依存を捉えることと、LLMの基盤であることが押さえ目標です。

自己注意機構

Attention(注意)は、入力系列の中でどの部分を重視するかに重みを付ける仕組みです。Self-Attentionは、同じ系列内の要素同士の関係を見ます。

例えば「彼はりんごを食べ、それを片付けた」の「それ」が何を指すか——遠い位置の語同士も、ある程度まとめて関連づけられるのが利点です(G-295)。

「パディング値を必ず1にするルール」など、Attentionの誤った説明が×になる問題もあります(G-295のD選択肢)。

構成要素(試験向け)

細部は試験範囲外のことも多いですが、名前だけ遭遇しやすい要素です。

要素 役割(ざっくり)
Multi-Head Attention 複数の注意の視点を並列に計算
位置エンコーディング 語順・位置情報をモデルに与える(匿名加工ではない:TF-0112)
Feed-Forward Network(FFN) 各位置で非線形変換
残差接続・層正規化 学習の安定化

RNNとの対比

RNN / LSTM Transformer
系列の扱い 時系列に沿って順次処理 注意機構で並列的に関係を計算
長距離依存 勾配消失などで苦労しやすい Attentionで直接つなぎやすい
試験 古典的系列モデル 現代LLMの基盤(LLM

LLM・GPTとの関係

LLMは大規模な言語モデルというモデルのクラス、Transformerはその中核になりうるネットワーク構造です。GPTはTransformerを基盤とする自己回帰型の言語モデル系列として説明されます(TF-0140)。構造の詳細はGPTアーキテクチャを参照してください。

アーキテクチャ Transformer
モデル GPT、BERT、LLM
サービス ChatGPTなど

学習の仕組みは誤差逆伝播法、振る舞い調整はアライメント、効率適応はLoRAなど、別の記事で補完します。

よくある質問

TransformerとLLMは同じ?

同じではありません。Transformerは構造、LLMは大規模言語モデルです。多くのLLMがTransformer系です。

位置エンコーディングは個人情報の匿名加工?

いいえ。系列の位置情報を与える技術です(TF-0112)。

画像生成にも使われる?

はい。ViTなど画像をパッチ列としてTransformerに入れる手法もあります。テキスト画像生成とも関連します。

決定木やn-gramと混同しないには?

LLMの記事で「LLM≠決定木」「LLM≠n-gram」の対比を確認してください。