モデル・技術

ROUGEとは?参照文をどれだけ拾えたか——要約評価の再現率ベース指標

読み:ルージュ / 英:ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

更新日: 読了目安:約6分

ROUGEは、自動要約の出力が人手の参照要約をどれだけ「拾えているか」——再現率(Recall)中心——を測る評価指標です。BLEUが機械翻訳で適合率(Precision)寄りに設計されたのに対し、ROUGEは「短い要約に重要な語句が含まれているか」——本記事はバリアント名の暗記より、BLEUとの対になる評価の物差しに焦点を当てます。

要約というタスク

自然言語処理には、形態素解析、機械翻訳、質問応答、文書要約、感情分析などが含まれます(TF-126)。

要約は、長い原文から短い文を生成し、要点を伝えるタスクです。ニュース記事のダイジェストや議事録の概要などが典型です。品質を測るには人手評価が理想ですが、研究・開発では参照要約との自動比較が必要——ROUGEはその古典的な物差しです。

Attentionは翻訳・要約・画像認識など多くの応用で使われますが(TF-417)、ROUGEはモデル構造ではなく評価指標です。

再現率を重視する理由

要約では、参照要約に含まれる重要な語句・フレーズを候補要約がどれだけカバーしているかが問われます。極端に短い要約は無関係な語を含まないため適合率は高く見えても、要点を落としている——再現率が低い——可能性があります。

ROUGEの Recall-Oriented(再現率志向)という名前は、この設計思想を表します。試験では数式より、「要約=参照文の内容をどれだけ拾えたか(Recall)」と覚えるとBLEUとの対比が明確になります。

ROUGEの考え方

  • 比較対象 — システムの候補要約 vs 人手の参照要約
  • 一致の見方n-gram(連続する語の並び)の重なり(G-334
  • 重視する観点 — 主に再現率(参照側のn-gramのうち何割が候補に含まれるか)
  • 位置づけ評価指標損失関数ではない

複数の参照要約がある場合、いずれかとの一致を認める設計もあります。同義語の言い換えは一致とみなされないなど、BLEUと同様の自動指標の限界があります(G-350)。

BLEUとの対比

観点ROUGEBLEU
主なタスク要約機械翻訳G-340
比較単位候補要約 vs 参照要約候補訳 vs 参照訳
設計の重心再現率(Recall)志向適合率(Precision)寄り
共通技術n-gram一致による自動評価
試験の整理要約の評価指標翻訳の評価指標

名前の響きが近いBLEUROUGEは、すり替え問題の定番です。タスク(要約 vs 翻訳)と重視する観点(Recall vs Precision)をセットで覚えます。

バリアントの整理

論文・ツールでは複数のROUGEが使われます。試験では細部より家族としての位置づけで十分なことが多いです。

何を見るか試験向け
ROUGE-Nn-gramの一致(再現率中心)ROUGEの基本形
ROUGE-L最長共通部分列(語順の連続性)フレーズの流れも評価
ROUGE-W 等重み付き・改良版バリアントの一つ。暗記不要なことも

BARTなどの要約モデルや、Transformerベースの生成モデルでも、開発時の比較にROUGEが使われることがあります——ただしROUGE=要約モデルではありません。

試験で押さえるポイント

  • 定義 — 要約のn-gram再現に基づく自動評価指標
  • タスク — 文書要約(TF-126のNLPタスク一覧)
  • 対比 — BLEU=翻訳・Precision寄り、ROUGE=要約・Recall志向
  • 種別 — 評価指標。損失関数・言語モデル・生成モデル本体ではない
  • 限界 — 自動指標だけでは品質・事実性を完全には測れない(G-350、G-474

演習で確認する

G検定:TF-126G-340(BLEU対比)、G-350G-334G-474TF-417

すり替えに注意

誤った説明正しい理解
ROUGE=BLEU要約・Recall vs 翻訳・Precision寄り
ROUGE=損失関数評価指標 vs 学習の目的関数
ROUGE=n-gramモデル評価指標 vs 言語モデル
ROUGE=要約モデル品質を測る指標 vs 要約を生成するモデル
ROUGE=機械翻訳要約評価 vs 翻訳タスク(G-340)
ROUGEが高ければ事実性も保証参照との一致であり、真偽の保証ではない(G-350)

よくある質問

ROUGEは何を評価しますか?

主に自動要約の品質です。システムが生成した要約文(候補)と、人手で用意した参照要約の間で、連続する語の並び(n-gram)などがどれだけ一致するかを見て、再現率を中心にスコア化します。文書要約は自然言語処理の代表タスクの一つです。

ROUGEとBLEUは同じですか?

同じではありません。どちらもn-gram一致を使う自動評価指標ですが、ROUGEは要約評価で再現率(Recall)を重視し、BLEUは主に機械翻訳評価で適合率(Precision)寄りの設計として整理されます。タスクと重視する観点が異なります。

ROUGEは損失関数ですか?

いいえ。ROUGEはモデル出力を評価する指標であり、学習時に勾配降下で最小化する損失関数とは別物です。評価指標と学習の目的関数は役割が異なります。