BERT(Bidirectional Encoder Representations from Transformers)は、Googleが2018年に公開した自然言語処理向けの事前学習モデルです。GPTがデコーダで「次の語を予測しながら生成」するのに対し、BERTはTransformerのエンコーダで文の前後両方の文脈を同時に見て理解する——という設計が試験の核心です。本記事は層構造の暗記ではなく、「なぜ双方向エンコーダが理解タスクの土台になったか」に焦点を当てます。
試験で問われる見方
定義の骨格は「Transformerのエンコーダを用いた双方向的な文脈表現を学習する言語モデル」(G-337、TF-425、TF-131)。
誤答では、BERT=物体検出専用CNN(G-323)、BERT=画像生成GAN(TF-426)など、別分野のモデル名とのすり替えに注意します。
BERTはLLMの源流の一つですが、現代の対話型生成AI(ChatGPT等)の中核はデコーダ型の自己回帰生成です。BERT=ChatGPT、とは答えません。
BERTとは
BERTは、大量のテキストで事前学習(Pre-training)された言語表現モデルです。公開当初は機械翻訳の下流タスクで高得点を記録し、「事前学習+少量のファインチューニング」で多様なNLPタスクに転用できる——という転移学習の成功例として知られました。
名前の Bidirectional は「双方向」——単語の意味を決めるとき、左の文脈も右の文脈も同時に参照する——ことを示します。これが従来の左から右だけの言語モデルとの大きな違いです。
双方向文脈の意味
例文:「彼は銀行で働き、川の岸を歩いた」——「岸」が何を指すかは、前後の語(銀行/川)に依存します。
| 方式 | 文脈の見方 | 試験での整理 |
|---|---|---|
| 従来の言語モデル(左→右) | 過去の語だけ参照 | 生成に自然。理解は片側文脈 |
| BERT(双方向) | 左右両方を同時参照 | 理解・分類に有利 |
| GPT(因果的マスク) | 未来を見ない(生成のため) | 続き書き・対話生成 |
双方向だからといって「未来を見て不正解を覗く」わけではなく、学習時のマスク設計で左右の文脈を統合する——という理解で試験に十分なことが多いです。
事前学習(MLM・NSP)
BERTの事前学習で名前が出やすい二つのタスクです。細部の数式より役割を押さえます。
| タスク | ざっくりした内容 | 試験向けの一言 |
|---|---|---|
| MLM(Masked Language Model) | 文中の一部をマスクし、隠れた語を当てる | 双方向文脈を学ぶ |
| NSP(Next Sentence Prediction) | 二文が連続かどうかを判別 | 文書レベルの関係を学ぶ |
学習後はファインチューニングで感情分類・質問応答などに適応します。BERT自体はアーキテクチャ+事前学習済み重みのパッケージとして語られることが多いです。
GPTとの対比
| BERT(エンコーダ型) | GPT(デコーダ型) | |
|---|---|---|
| Transformerの側 | エンコーダ | デコーダ |
| 文脈 | 双方向 | 因果的(未来を見ない) |
| 主な学習 | マスク言語モデル等 | 次トークン予測 |
| 得意 | 分類・理解・検索表現 | 生成・続き書き・対話 |
| 試験 | TF-425 | TF-427 |
詳細な対比はGPTアーキテクチャ記事でも整理しています。どちらもTransformerの子孫ですが、使う側と学習目的が異なります。
得意なタスク
- 文章分類 レビューのポジ/ネガ判定、トピック分類
- 固有表現抽出 人名・地名・組織名の抽出
- 質問応答 段落から答えのスパンを特定(読解型)
- 意味検索の表現 文や段落をベクトル化し類似検索
長い対話文の自由生成は、現代ではGPT-4などデコーダ型LLMが主役です。BERTは「理解の時代」の代表として覚えると系列史が整理しやすくなります。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| BERT=GPT | エンコーダ型 vs デコーダ型 |
| BERT=CNN | NLP vs 画像の畳み込み(G-323) |
| BERT=GAN | TF-426。生成器・識別器の競合とは無関係 |
| BERT=Transformer全体 | Transformerの派生モデルの一つ |
| 双方向=対話型ChatGPT | 理解系事前学習 vs 生成型サービス |
よくある質問
BERTとGPTの違いは?
どちらもTransformer系ですが、BERTはエンコーダ型で双方向の文脈理解に強く、GPTはデコーダ型で次トークン予測による文章生成に強い、と整理します。試験では構造(エンコーダ/デコーダ)と得意タスクの対比が重要です。
BERTは文章を生成するモデルですか?
主目的は双方向の言語表現の学習であり、分類・質問応答・固有表現抽出など理解系タスク向きです。自己回帰的な長文生成はGPT型の方が典型です。
BERTは画像認識用のCNNですか?
いいえ。BERTは自然言語処理向けのTransformerエンコーダモデルです。画像の物体検出専用モデルやCNN・GANとは別物です。