T5とは？翻訳も分類も全部テキスト入出力——NLPをText-to-Textに一本化する

T5（Text-to-Text Transfer Transformer）は、NLPのタスクをすべて「テキストを入れて、テキストを出す」——Text-to-Text——にそろえるTransformerモデルです。翻訳はドイツ語文、分類は「positive」という文字列、要約は短い段落——出力の型をタスクごとに変えないのが設計の肝です。本記事はC4データセットの規模より、なぜラベルまで文字列にしたかに焦点を当てます。

試験で問われる見方

T5単独の定義問題はまだ少ないですが、系列変換・機械翻訳・Transformer系NLPの文脈で押さえます。Seq2Seqは「入力系列→出力系列」の枠組み（G-255）、機械翻訳はその代表タスク（G-340）——T5はこれを全タスクに拡張した具体モデルです。

同時にBERT（G-337）やGPTとの役割の違い——理解専用か、生成か、Encoder-Decoderか——をすり替えないことが得点源です。

演習で確認する

G検定：G-255（Seq2Seq）、G-340（機械翻訳）、G-337（BERT）、TF-126（NLPの定義）

生成AIパスポート：TF-0108（Transformer）

Text-to-Textの発想

従来のNLPはタスクごとに入出力の形がバラバラでした。分類は文→クラスID、翻訳は文→別言語の文、質問応答は段落＋質問→スパン——モデルもデータもヘッドも別設計になりがちです。

T5はここを割り切ります。入力も出力も常にテキスト。数値ラベルや専用の分類層に頼らず、モデルは「次のトークンを予測する」という一つの学習目標だけで多様なタスクをこなします。

タスク	入力テキスト（例）	出力テキスト（例）
機械翻訳	translate English to German: Hello	Hallo
要約	summarize: 長い記事本文…	短い要約文
文分類	cola sentence: 文	acceptable / not acceptable
類似度	stsb sentence1: … sentence2: …	3.8（スコアも文字列）

試験では細かいプレフィックス名まで覚える必要はありません。「タスクの違いをテキストの書き方で表す」——この統一感がT5の本質です。

タスクをプレフィックスで指定

入力の先頭にタスク指示（プレフィックス）を付けるのがT5流です。「translate …」「summarize:」「cola sentence:」——人間がプロンプトで指示する今のLLMの作法にも通じる発想ですが、T5は2019〜2020年頃にこの統一を体系化した先駆けです。

利点1 — 1つのモデルでマルチタスク学習・転移がしやすい
利点2 — 評価も生成テキストの一致・BLEUなど共通の物差しに寄せられる
利点3 — 新タスク追加時も、出力形式を増やさずプレフィックスを足すだけで済む

G-345が示す統計的MTからニューラルMTへの流れの先に、「翻訳もただのテキスト変換のひとつ」として並べる——これがT5の整理です。

Encoder-Decoderの骨格

T5の中身はEncoder-Decoder型のTransformerです。エンコーダが入力テキスト全体を読み、デコーダが出力テキストを1トークンずつ生成——Seq2Seqの典型構造そのものです。

エンコーダ — 双方向の文脈で入力を表現（BERTに近い「読む」側）
デコーダ — 因果的マスクで左から右へ出力を生成（GPTに近い「書く」側）
接続 — クロスAttentionで入力のどこを参照するかを動的に選択

アーキテクチャ単体では革新的というより、タスク定式化の統一がT5の記号になります。試験では「T5＝Encoder-DecoderのText-to-Text」と一言で言えると安心です。

BERT・GPT・BARTとの整理

モデル	構成	主な役割	T5との違い
BERT	Encoderのみ	理解・分類・抽出（G-337）	穴埋め事前学習。生成は本来の設計外
GPT	Decoderのみ	続き生成・対話	入出力タスクの型統一はしない
BART	Encoder-Decoder	ノイズ除去からの復元・要約	事前学習は破損文の復元。T5はプレフィックスでタスク指定
T5	Encoder-Decoder	全タスクをText-to-Text	タスク統一が設計の中心

モデル名（BERT/GPT/T5）と、タスクの型（分類/生成/Seq2Seq）は別軸です。G-337でBERTを押さえたら、T5は「同じTransformer家族の、入出力をテキストに揃えた兄弟」として足せます。

トークナイズと学習

T5はSentencePieceによるサブワードトークナイズを採用します。語彙はモデルサイズ（Small/Base/Large など）で共有され、多言語・多タスクの前処理を一本化します。

大規模コーパス（C4など）でのスパン破損（連続トークンをマスクして復元）を含む事前学習のあと、各ダウンストリームタスクをText-to-Text形式に整形してファインチューニング——「同じ損失関数・同じデコーダ出口」でタスクを並べる流れです。

試験ではデータセット名より、Encoder-Decoder＋テキスト入出力統一＋SentencePieceの三点セットを覚える方が再利用しやすいです。

すり替えに注意

誤った説明	正しい理解
T5＝BERT	Encoder-DecoderのText-to-Text vs Encoderのみの理解モデル（G-337）
T5＝GPT	入出力変換の統一 vs デコーダのみの続き生成
T5＝CNN	Transformer系列処理 vs 画像の畳み込み（G-239）
T5＝Seq2Seqそのもの	Seq2Seqは枠組み、T5はその枠で全タスクをテキスト化した具体モデル
分類は数値クラスIDのみ	T5ではラベルも文字列として生成
T5＝物体検出	NLPモデル。画像のバウンディングボックス予測とは無関係

よくある質問

T5のText-to-Textとは何ですか？

すべての自然言語処理タスクを「テキストを入力として受け取り、テキストを出力する」形式にそろえる設計思想です。機械翻訳なら入力に「translate English to German: 英文」、出力にドイツ語文。文分類なら入力に「cola sentence: 文」、出力に「acceptable」や「not acceptable」のように、ラベルも文字列として扱います。

T5とBERTの違いは？

BERTはTransformerのEncoderのみを使い、マスク言語モデルで双方向の文脈表現を学ぶ理解向けモデルです（G-337）。T5はEncoder-Decoder構成で、入力テキストから出力テキストを逐次生成するText-to-Text設計です。翻訳・要約など生成系タスクを同じ枠組みに載せる点がT5の特徴です。

T5は畳み込みニューラルネットワークですか？

いいえ。T5はTransformerベースの言語モデルであり、畳み込みニューラルネットワーク（CNN）ではありません。Self-Attentionを中核とする系列処理モデルで、自然言語処理タスクをテキスト変換として扱います。