BARTとは？ノイズを直して覚える——エンコーダ・デコーダの破損復元事前学習

BARTは、テキストに意図的なノイズ（破損）を加え、Transformerのエンコーダ・デコーダで元の文を復元させる——という事前学習を行う言語モデルです。BERTが「隠れた語を当てて理解」するのに対し、BARTは「壊れた文を直して出力」する。本記事は層数の暗記ではなく、「破損復元がなぜ系列変換タスクの土台になるか」に焦点を当てます。

破損復元という学習の型

BARTの事前学習の核心はテキストコラプション（text corruption）です。元の文に対して、例えば次のような操作でノイズを加えます。

トークンのマスク — 語を隠す（BERTのMLMに近い操作）
語順の入れ替え — 文の構造を崩す
文の削除・挿入 — 段落レベルで欠落を作る

エンコーダは壊れた入力を読み、デコーダは元の文を系列として生成します。人間が誤字だらけの草稿を読んで清書する——という比喩で、試験向けの直感を掴みやすいです。

名前の Bidirectional はエンコーダ側の双方向文脈、Auto-Regressive はデコーダ側が左から右へ語を生成する——というハイブリッドを示します。

エンコーダ・デコーダの役割

部品	役割	試験向けの一言
エンコーダ	破損入力を読み、内部表現に変換	入力系列の理解
デコーダ	表現をもとに出力系列を生成	出力系列の生成
Attention	入出力の対応を重み付け	翻訳で「どの入力語を参照するか」（G-282）

この構成はSeq2Seq（Sequence to Sequence）——入力系列を別の出力系列へ変換する枠組み——の延長です（G-255）。機械翻訳の文脈でエンコーダ・デコーダが語られることも多く、BARTはその思想を事前学習に取り込んだモデルと整理します。

BERT・GPTとの三角関係

2018〜2020年の事前学習モデルは、試験では「何を学習するか」で区別されます。

モデル	構造	事前学習の型	強み
BERT	エンコーダのみ	マスク語予測（MLM）	分類・理解
GPT	デコーダのみ	次トークン予測（因果的）	続き書き・生成
BART	エンコーダ＋デコーダ	破損復元	要約・翻訳など系列変換

BERTとGPTを「足した」というより、理解（エンコーダ）と生成（デコーダ）を一つの事前学習課題に統合した——と捉えるとすり替えに強くなります。現代のLLMは主にデコーダ型ですが、BARTは系列変換タスクの基盤モデルとして試験文脈に残ります。

得意なタスク

BARTは事前学習後、ファインチューニングで次のようなNLPタスクに転用されます。

文書要約 — 長文を短い文へ変換
機械翻訳 — 言語Aの系列を言語Bへ（G-340）
質問応答・対話 — 入力文脈から応答文を生成

いずれも「入力系列→出力系列」というSeq2Seqの形です。BERT単体が得意な「ラベル付き分類」と、GPT単体が得意な「続きの生成」と、タスクの形で棲み分けを意識すると整理しやすいです。

試験で押さえるポイント

定義 — ノイズ破損から復元するエンコーダ・デコーダ事前学習モデル
構造 — Transformerベース。エンコーダ（双方向）＋デコーダ（自己回帰）
タスク — 要約・翻訳など系列変換（Seq2Seq）と関連
位置づけ — 基盤モデルの一種。事前学習→下流タスクへ転移
すり替え回避 — BERT（エンコーダのみ）、GPT（デコーダのみ）、CNN、GANとは別

演習で確認する

G検定：G-255、G-340、G-282、G-337、TF-126

すり替えに注意

誤った説明	正しい理解
BART＝BERTと同じ	BERTはエンコーダのみ。BARTはエンコーダ・デコーダ＋破損復元
BART＝GPTと同じ	GPTはデコーダのみの因果的生成。BARTは破損入力の復元
BART＝画像認識CNN	テキスト向けNLPモデル（BERTのすり替えパターンと同型）
BART＝GAN	GANは生成器・識別器の対戦。BARTは教師あり的な復元事前学習
破損復元＝データ拡張	学習課題の設計。画像反転などの拡張とは別

よくある質問

BARTの事前学習は何をしますか？

元のテキストにノイズ（語のマスク、並べ替え、文の削除など）を加え、エンコーダ・デコーダで元の文を復元させる破損復元型の事前学習を行います。双方向の文脈理解と系列生成の両方を学ぶ設計です。

BARTとBERTの違いは？

BERTはTransformerエンコーダのみで双方向理解が中心です。BARTはエンコーダとデコーダを持ち、破損した入力から出力系列を生成する系列変換型の事前学習です。要約や翻訳など生成寄りのタスクと相性がよいと整理します。

BARTは画像認識モデルですか？

いいえ。BARTは自然言語処理向けのテキストモデルです。CNNや物体検出モデルとは別系統であり、BERTを画像認識専用とする誤答パターンと同様にすり替えに注意します。