ELECTRAは、Googleが提案したBERT派生の言語モデルです。BERTのMLMが「マスクした語を当てる」事前学習だったのに対し、ELECTRAは「生成器が置き換えた語を見抜く」——置換トークン検出(RTD)——で学習します。本記事は生成器・判別器の詳細な損失式ではなく、「なぜ当てるより見抜く方が効率的か」という設計の転換に焦点を当てます。
MLMの学習効率
BERTの事前学習の中心はMLM(Masked Language Model)——文中の一部をマスクし、隠れた語を予測する——です(G-337)。
しかしマスクは通常語の一部だけに適用されます。1文のほとんどのトークンは学習信号を生まない——「当てる対象が少ない」——という非効率がありました。ELECTRAはこのボトルネックに正面から応え、すべてのトークンに学習信号を与える設計を目指します。
置換トークン検出の直感
RTD(Replaced Token Detection)の流れは次のとおりです。
- 元の文 — 「猫が魚を食べた」のような入力
- 生成器 — いくつかの語を別の語に置き換え(例:「犬が魚を食べた」)
- 判別器 — 各トークンが「元の文のまま」か「置き換えられたか」を二値判定
- 学習 — 判別器のエンコーダが、文脈から不自然な置換を見抜けるよう更新
「隠れた語を推測する」ではなく「改ざんされた語を発見する」——判別(discrimination)タスクに置き換えるのがELECTRAの核心です。試験では「判別的事前学習」がキーワードになります。
生成器と判別器
| 部品 | 役割 | GANとの違い |
|---|---|---|
| 生成器 | 小さなMLMで一部トークンを置換 | 画像生成ではない。語の置き換えのみ |
| 判別器 | 置換の有無をトークンごとに判定 | 主役は判別器のエンコーダ(下流タスクに使う) |
| GAN | 生成器と識別器の対戦で画像等を生成 | 別枠組み(TF-426) |
二部構成なのでGANと混同されやすいですが、ELECTRAはテキスト表現の事前学習であり、新しい画像を生む生成AIではありません。判別器のエンコーダが、BERTと同様に分類・QAなどへファインチューニングされます。
BERT派生との位置づけ
| モデル | 事前学習の焦点 | 試験での整理 |
|---|---|---|
| BERT | MLM+NSPで双方向理解 | 定義の基準(G-337) |
| ALBERT | パラメータ共有で軽量化 | 構造の効率化 |
| DeBERTa | 分離注意で性能向上 | 注意機構の改良 |
| ELECTRA | RTDで学習効率向上 | 事前学習タスクの転換 |
| GPT | 次トークン予測で生成 | デコーダ型。別系譜 |
試験で押さえるポイント
- 定義 — 判別的事前学習で効率よく学習するBERT系モデル
- キーワード — 置換トークン検出(RTD)。MLMの「当てる」から「見抜く」へ
- 系譜 — Transformerエンコーダ型NLP。BERTの派生
- すり替え回避 — GAN・物体検出・ChatGPTではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| ELECTRA=BERT | RTD vs MLM。派生だが同一ではない |
| ELECTRA=GAN | テキスト判別の事前学習 vs 画像生成の枠組み |
| ELECTRA=GPT | エンコーダ理解 vs デコーダ生成 |
| ELECTRA=CNN | NLP vs 画像(G-323) |
| 判別=チューリングテスト | トークン置換の検出 vs 人間/機械の識別(TF-344) |
よくある質問
ELECTRAは何をするモデルですか?
BERTと同様、Transformerエンコーダで自然言語の表現を学ぶ事前学習モデルです。マスクした語を当てるMLMではなく、生成器が置き換えたトークンを判別器が見抜く置換トークン検出(RTD)で学習する点が特徴です。
ELECTRAとBERTは同じですか?
同じではありません。BERTはマスク言語モデル(MLM)で隠れた語を予測して事前学習します。ELECTRAは置換トークン検出で、どの語が元の文から置き換えられたかを判別して学習します。いずれもエンコーダ型NLPモデルですが、事前学習の設計が異なります。
ELECTRAはGANですか?
いいえ。ELECTRAは生成器と判別器の二部構成ですが、画像を新規生成するGANとは別物です。判別器が主役となり、テキストのトークン置換を見抜く事前学習手法として位置づけられます(TF-426のGANすり替えに注意)。