モデル・技術

T5とは?翻訳も分類も全部テキスト入出力——NLPをText-to-Textに一本化する

読み:ティーファイブ / 英:T5(Text-to-Text Transfer Transformer)

更新日: 読了目安:約7分

T5(Text-to-Text Transfer Transformer)は、NLPのタスクをすべて「テキストを入れて、テキストを出す」——Text-to-Text——にそろえるTransformerモデルです。翻訳はドイツ語文、分類は「positive」という文字列、要約は短い段落——出力の型をタスクごとに変えないのが設計の肝です。本記事はC4データセットの規模より、なぜラベルまで文字列にしたかに焦点を当てます。

試験で問われる見方

T5単独の定義問題はまだ少ないですが、系列変換・機械翻訳・Transformer系NLPの文脈で押さえます。Seq2Seqは「入力系列→出力系列」の枠組み(G-255)、機械翻訳はその代表タスク(G-340)——T5はこれを全タスクに拡張した具体モデルです。

同時にBERTG-337)やGPTとの役割の違い——理解専用か、生成か、Encoder-Decoderか——をすり替えないことが得点源です。

演習で確認する

G検定:G-255(Seq2Seq)G-340(機械翻訳)G-337(BERT)TF-126(NLPの定義)

生成AIパスポート:TF-0108(Transformer)

Text-to-Textの発想

従来のNLPはタスクごとに入出力の形がバラバラでした。分類は文→クラスID、翻訳は文→別言語の文、質問応答は段落+質問→スパン——モデルもデータもヘッドも別設計になりがちです。

T5はここを割り切ります。入力も出力も常にテキスト。数値ラベルや専用の分類層に頼らず、モデルは「次のトークンを予測する」という一つの学習目標だけで多様なタスクをこなします。

タスク入力テキスト(例)出力テキスト(例)
機械翻訳translate English to German: HelloHallo
要約summarize: 長い記事本文…短い要約文
文分類cola sentence: 文acceptable / not acceptable
類似度stsb sentence1: … sentence2: …3.8(スコアも文字列)

試験では細かいプレフィックス名まで覚える必要はありません。「タスクの違いをテキストの書き方で表す」——この統一感がT5の本質です。

タスクをプレフィックスで指定

入力の先頭にタスク指示(プレフィックス)を付けるのがT5流です。「translate …」「summarize:」「cola sentence:」——人間がプロンプトで指示する今のLLMの作法にも通じる発想ですが、T5は2019〜2020年頃にこの統一を体系化した先駆けです。

  • 利点1 — 1つのモデルでマルチタスク学習・転移がしやすい
  • 利点2 — 評価も生成テキストの一致・BLEUなど共通の物差しに寄せられる
  • 利点3 — 新タスク追加時も、出力形式を増やさずプレフィックスを足すだけで済む

G-345が示す統計的MTからニューラルMTへの流れの先に、「翻訳もただのテキスト変換のひとつ」として並べる——これがT5の整理です。

Encoder-Decoderの骨格

T5の中身はEncoder-Decoder型のTransformerです。エンコーダが入力テキスト全体を読み、デコーダが出力テキストを1トークンずつ生成——Seq2Seqの典型構造そのものです。

  1. エンコーダ — 双方向の文脈で入力を表現(BERTに近い「読む」側)
  2. デコーダ — 因果的マスクで左から右へ出力を生成(GPTに近い「書く」側)
  3. 接続 — クロスAttentionで入力のどこを参照するかを動的に選択

アーキテクチャ単体では革新的というより、タスク定式化の統一がT5の記号になります。試験では「T5=Encoder-DecoderのText-to-Text」と一言で言えると安心です。

BERT・GPT・BARTとの整理

モデル構成主な役割T5との違い
BERTEncoderのみ理解・分類・抽出(G-337)穴埋め事前学習。生成は本来の設計外
GPTDecoderのみ続き生成・対話入出力タスクの型統一はしない
BARTEncoder-Decoderノイズ除去からの復元・要約事前学習は破損文の復元。T5はプレフィックスでタスク指定
T5Encoder-Decoder全タスクをText-to-Textタスク統一が設計の中心

モデル名(BERT/GPT/T5)と、タスクの型(分類/生成/Seq2Seq)は別軸です。G-337でBERTを押さえたら、T5は「同じTransformer家族の、入出力をテキストに揃えた兄弟」として足せます。

トークナイズと学習

T5はSentencePieceによるサブワードトークナイズを採用します。語彙はモデルサイズ(Small/Base/Large など)で共有され、多言語・多タスクの前処理を一本化します。

大規模コーパス(C4など)でのスパン破損(連続トークンをマスクして復元)を含む事前学習のあと、各ダウンストリームタスクをText-to-Text形式に整形してファインチューニング——「同じ損失関数・同じデコーダ出口」でタスクを並べる流れです。

試験ではデータセット名より、Encoder-Decoder+テキスト入出力統一+SentencePieceの三点セットを覚える方が再利用しやすいです。

すり替えに注意

誤った説明正しい理解
T5=BERTEncoder-DecoderのText-to-Text vs Encoderのみの理解モデル(G-337)
T5=GPT入出力変換の統一 vs デコーダのみの続き生成
T5=CNNTransformer系列処理 vs 画像の畳み込み(G-239)
T5=Seq2SeqそのものSeq2Seqは枠組み、T5はその枠で全タスクをテキスト化した具体モデル
分類は数値クラスIDのみT5ではラベルも文字列として生成
T5=物体検出NLPモデル。画像のバウンディングボックス予測とは無関係

よくある質問

T5のText-to-Textとは何ですか?

すべての自然言語処理タスクを「テキストを入力として受け取り、テキストを出力する」形式にそろえる設計思想です。機械翻訳なら入力に「translate English to German: 英文」、出力にドイツ語文。文分類なら入力に「cola sentence: 文」、出力に「acceptable」や「not acceptable」のように、ラベルも文字列として扱います。

T5とBERTの違いは?

BERTはTransformerのEncoderのみを使い、マスク言語モデルで双方向の文脈表現を学ぶ理解向けモデルです(G-337)。T5はEncoder-Decoder構成で、入力テキストから出力テキストを逐次生成するText-to-Text設計です。翻訳・要約など生成系タスクを同じ枠組みに載せる点がT5の特徴です。

T5は畳み込みニューラルネットワークですか?

いいえ。T5はTransformerベースの言語モデルであり、畳み込みニューラルネットワーク(CNN)ではありません。Self-Attentionを中核とする系列処理モデルで、自然言語処理タスクをテキスト変換として扱います。