ELECTRAとは？当てるのではなく見抜く——判別的事前学習でBERTを効率化する

ELECTRAは、Googleが提案したBERT派生の言語モデルです。BERTのMLMが「マスクした語を当てる」事前学習だったのに対し、ELECTRAは「生成器が置き換えた語を見抜く」——置換トークン検出（RTD）——で学習します。本記事は生成器・判別器の詳細な損失式ではなく、「なぜ当てるより見抜く方が効率的か」という設計の転換に焦点を当てます。

MLMの学習効率

BERTの事前学習の中心はMLM（Masked Language Model）——文中の一部をマスクし、隠れた語を予測する——です（G-337）。

しかしマスクは通常語の一部だけに適用されます。1文のほとんどのトークンは学習信号を生まない——「当てる対象が少ない」——という非効率がありました。ELECTRAはこのボトルネックに正面から応え、すべてのトークンに学習信号を与える設計を目指します。

置換トークン検出の直感

RTD（Replaced Token Detection）の流れは次のとおりです。

元の文 — 「猫が魚を食べた」のような入力
生成器 — いくつかの語を別の語に置き換え（例：「犬が魚を食べた」）
判別器 — 各トークンが「元の文のまま」か「置き換えられたか」を二値判定
学習 — 判別器のエンコーダが、文脈から不自然な置換を見抜けるよう更新

「隠れた語を推測する」ではなく「改ざんされた語を発見する」——判別（discrimination）タスクに置き換えるのがELECTRAの核心です。試験では「判別的事前学習」がキーワードになります。

生成器と判別器

部品	役割	GANとの違い
生成器	小さなMLMで一部トークンを置換	画像生成ではない。語の置き換えのみ
判別器	置換の有無をトークンごとに判定	主役は判別器のエンコーダ（下流タスクに使う）
GAN	生成器と識別器の対戦で画像等を生成	別枠組み（TF-426）

二部構成なのでGANと混同されやすいですが、ELECTRAはテキスト表現の事前学習であり、新しい画像を生む生成AIではありません。判別器のエンコーダが、BERTと同様に分類・QAなどへファインチューニングされます。

BERT派生との位置づけ

モデル	事前学習の焦点	試験での整理
BERT	MLM＋NSPで双方向理解	定義の基準（G-337）
ALBERT	パラメータ共有で軽量化	構造の効率化
DeBERTa	分離注意で性能向上	注意機構の改良
ELECTRA	RTDで学習効率向上	事前学習タスクの転換
GPT	次トークン予測で生成	デコーダ型。別系譜

試験で押さえるポイント

定義 — 判別的事前学習で効率よく学習するBERT系モデル
キーワード — 置換トークン検出（RTD）。MLMの「当てる」から「見抜く」へ
系譜 — Transformerエンコーダ型NLP。BERTの派生
すり替え回避 — GAN・物体検出・ChatGPTではない

演習で確認する

G検定：G-337、TF-425、TF-426、G-323

すり替えに注意

誤った説明	正しい理解
ELECTRA＝BERT	RTD vs MLM。派生だが同一ではない
ELECTRA＝GAN	テキスト判別の事前学習 vs 画像生成の枠組み
ELECTRA＝GPT	エンコーダ理解 vs デコーダ生成
ELECTRA＝CNN	NLP vs 画像（G-323）
判別＝チューリングテスト	トークン置換の検出 vs 人間/機械の識別（TF-344）

よくある質問

ELECTRAは何をするモデルですか？

BERTと同様、Transformerエンコーダで自然言語の表現を学ぶ事前学習モデルです。マスクした語を当てるMLMではなく、生成器が置き換えたトークンを判別器が見抜く置換トークン検出（RTD）で学習する点が特徴です。

ELECTRAとBERTは同じですか？

同じではありません。BERTはマスク言語モデル（MLM）で隠れた語を予測して事前学習します。ELECTRAは置換トークン検出で、どの語が元の文から置き換えられたかを判別して学習します。いずれもエンコーダ型NLPモデルですが、事前学習の設計が異なります。

ELECTRAはGANですか？

いいえ。ELECTRAは生成器と判別器の二部構成ですが、画像を新規生成するGANとは別物です。判別器が主役となり、テキストのトークン置換を見抜く事前学習手法として位置づけられます（TF-426のGANすり替えに注意）。