モデル・技術

BERTとは?エンコーダ革命——双方向の「理解」専用

読み:ばーと / 英:BERT(Bidirectional Encoder Representations from Transformers)

更新日: 読了目安:約7分

BERT(Bidirectional Encoder Representations from Transformers)は、Googleが2018年に公開した自然言語処理向けの事前学習モデルです。GPTがデコーダで「次の語を予測しながら生成」するのに対し、BERTはTransformerエンコーダで文の前後両方の文脈を同時に見て理解する——という設計が試験の核心です。本記事は層構造の暗記ではなく、「なぜ双方向エンコーダが理解タスクの土台になったか」に焦点を当てます。

試験で問われる見方

定義の骨格は「Transformerのエンコーダを用いた双方向的な文脈表現を学習する言語モデル」G-337TF-425TF-131)。

誤答では、BERT=物体検出専用CNNG-323)、BERT=画像生成GANTF-426)など、別分野のモデル名とのすり替えに注意します。

BERTはLLMの源流の一つですが、現代の対話型生成AI(ChatGPT等)の中核はデコーダ型の自己回帰生成です。BERT=ChatGPT、とは答えません。

BERTとは

BERTは、大量のテキストで事前学習(Pre-training)された言語表現モデルです。公開当初は機械翻訳の下流タスクで高得点を記録し、「事前学習+少量のファインチューニング」で多様なNLPタスクに転用できる——という転移学習の成功例として知られました。

名前の Bidirectional は「双方向」——単語の意味を決めるとき、左の文脈も右の文脈も同時に参照する——ことを示します。これが従来の左から右だけの言語モデルとの大きな違いです。

双方向文脈の意味

例文:「彼は銀行で働き、川のを歩いた」——「岸」が何を指すかは、前後の語(銀行/川)に依存します。

方式文脈の見方試験での整理
従来の言語モデル(左→右)過去の語だけ参照生成に自然。理解は片側文脈
BERT(双方向)左右両方を同時参照理解・分類に有利
GPT(因果的マスク)未来を見ない(生成のため)続き書き・対話生成

双方向だからといって「未来を見て不正解を覗く」わけではなく、学習時のマスク設計で左右の文脈を統合する——という理解で試験に十分なことが多いです。

事前学習(MLM・NSP)

BERTの事前学習で名前が出やすい二つのタスクです。細部の数式より役割を押さえます。

タスクざっくりした内容試験向けの一言
MLM(Masked Language Model)文中の一部をマスクし、隠れた語を当てる双方向文脈を学ぶ
NSP(Next Sentence Prediction)二文が連続かどうかを判別文書レベルの関係を学ぶ

学習後はファインチューニングで感情分類・質問応答などに適応します。BERT自体はアーキテクチャ+事前学習済み重みのパッケージとして語られることが多いです。

GPTとの対比

BERT(エンコーダ型)GPT(デコーダ型)
Transformerの側エンコーダデコーダ
文脈双方向因果的(未来を見ない)
主な学習マスク言語モデル等次トークン予測
得意分類・理解・検索表現生成・続き書き・対話
試験TF-425TF-427

詳細な対比はGPTアーキテクチャ記事でも整理しています。どちらもTransformerの子孫ですが、使う側と学習目的が異なります。

得意なタスク

  • 文章分類 レビューのポジ/ネガ判定、トピック分類
  • 固有表現抽出 人名・地名・組織名の抽出
  • 質問応答 段落から答えのスパンを特定(読解型)
  • 意味検索の表現 文や段落をベクトル化し類似検索

長い対話文の自由生成は、現代ではGPT-4などデコーダ型LLMが主役です。BERTは「理解の時代」の代表として覚えると系列史が整理しやすくなります。

すり替えに注意

誤った説明正しい理解
BERT=GPTエンコーダ型 vs デコーダ型
BERT=CNNNLP vs 画像の畳み込み(G-323)
BERT=GANTF-426。生成器・識別器の競合とは無関係
BERT=Transformer全体Transformerの派生モデルの一つ
双方向=対話型ChatGPT理解系事前学習 vs 生成型サービス

よくある質問

BERTとGPTの違いは?

どちらもTransformer系ですが、BERTはエンコーダ型で双方向の文脈理解に強く、GPTはデコーダ型で次トークン予測による文章生成に強い、と整理します。試験では構造(エンコーダ/デコーダ)と得意タスクの対比が重要です。

BERTは文章を生成するモデルですか?

主目的は双方向の言語表現の学習であり、分類・質問応答・固有表現抽出など理解系タスク向きです。自己回帰的な長文生成はGPT型の方が典型です。

BERTは画像認識用のCNNですか?

いいえ。BERTは自然言語処理向けのTransformerエンコーダモデルです。画像の物体検出専用モデルやCNN・GANとは別物です。