ROUGEは、自動要約の出力が人手の参照要約をどれだけ「拾えているか」——再現率(Recall)中心——を測る評価指標です。BLEUが機械翻訳で適合率(Precision)寄りに設計されたのに対し、ROUGEは「短い要約に重要な語句が含まれているか」——本記事はバリアント名の暗記より、BLEUとの対になる評価の物差しに焦点を当てます。
要約というタスク
自然言語処理には、形態素解析、機械翻訳、質問応答、文書要約、感情分析などが含まれます(TF-126)。
要約は、長い原文から短い文を生成し、要点を伝えるタスクです。ニュース記事のダイジェストや議事録の概要などが典型です。品質を測るには人手評価が理想ですが、研究・開発では参照要約との自動比較が必要——ROUGEはその古典的な物差しです。
Attentionは翻訳・要約・画像認識など多くの応用で使われますが(TF-417)、ROUGEはモデル構造ではなく評価指標です。
再現率を重視する理由
要約では、参照要約に含まれる重要な語句・フレーズを候補要約がどれだけカバーしているかが問われます。極端に短い要約は無関係な語を含まないため適合率は高く見えても、要点を落としている——再現率が低い——可能性があります。
ROUGEの Recall-Oriented(再現率志向)という名前は、この設計思想を表します。試験では数式より、「要約=参照文の内容をどれだけ拾えたか(Recall)」と覚えるとBLEUとの対比が明確になります。
ROUGEの考え方
- 比較対象 — システムの候補要約 vs 人手の参照要約
- 一致の見方 — n-gram(連続する語の並び)の重なり(G-334)
- 重視する観点 — 主に再現率(参照側のn-gramのうち何割が候補に含まれるか)
- 位置づけ — 評価指標。損失関数ではない
複数の参照要約がある場合、いずれかとの一致を認める設計もあります。同義語の言い換えは一致とみなされないなど、BLEUと同様の自動指標の限界があります(G-350)。
BLEUとの対比
| 観点 | ROUGE | BLEU |
|---|---|---|
| 主なタスク | 要約 | 機械翻訳(G-340) |
| 比較単位 | 候補要約 vs 参照要約 | 候補訳 vs 参照訳 |
| 設計の重心 | 再現率(Recall)志向 | 適合率(Precision)寄り |
| 共通技術 | n-gram一致による自動評価 | |
| 試験の整理 | 要約の評価指標 | 翻訳の評価指標 |
名前の響きが近いBLEUとROUGEは、すり替え問題の定番です。タスク(要約 vs 翻訳)と重視する観点(Recall vs Precision)をセットで覚えます。
バリアントの整理
論文・ツールでは複数のROUGEが使われます。試験では細部より家族としての位置づけで十分なことが多いです。
| 例 | 何を見るか | 試験向け |
|---|---|---|
| ROUGE-N | n-gramの一致(再現率中心) | ROUGEの基本形 |
| ROUGE-L | 最長共通部分列(語順の連続性) | フレーズの流れも評価 |
| ROUGE-W 等 | 重み付き・改良版 | バリアントの一つ。暗記不要なことも |
BARTなどの要約モデルや、Transformerベースの生成モデルでも、開発時の比較にROUGEが使われることがあります——ただしROUGE=要約モデルではありません。
試験で押さえるポイント
- 定義 — 要約のn-gram再現に基づく自動評価指標
- タスク — 文書要約(TF-126のNLPタスク一覧)
- 対比 — BLEU=翻訳・Precision寄り、ROUGE=要約・Recall志向
- 種別 — 評価指標。損失関数・言語モデル・生成モデル本体ではない
- 限界 — 自動指標だけでは品質・事実性を完全には測れない(G-350、G-474)
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| ROUGE=BLEU | 要約・Recall vs 翻訳・Precision寄り |
| ROUGE=損失関数 | 評価指標 vs 学習の目的関数 |
| ROUGE=n-gramモデル | 評価指標 vs 言語モデル |
| ROUGE=要約モデル | 品質を測る指標 vs 要約を生成するモデル |
| ROUGE=機械翻訳 | 要約評価 vs 翻訳タスク(G-340) |
| ROUGEが高ければ事実性も保証 | 参照との一致であり、真偽の保証ではない(G-350) |
よくある質問
ROUGEは何を評価しますか?
主に自動要約の品質です。システムが生成した要約文(候補)と、人手で用意した参照要約の間で、連続する語の並び(n-gram)などがどれだけ一致するかを見て、再現率を中心にスコア化します。文書要約は自然言語処理の代表タスクの一つです。
ROUGEとBLEUは同じですか?
同じではありません。どちらもn-gram一致を使う自動評価指標ですが、ROUGEは要約評価で再現率(Recall)を重視し、BLEUは主に機械翻訳評価で適合率(Precision)寄りの設計として整理されます。タスクと重視する観点が異なります。
ROUGEは損失関数ですか?
いいえ。ROUGEはモデル出力を評価する指標であり、学習時に勾配降下で最小化する損失関数とは別物です。評価指標と学習の目的関数は役割が異なります。