モデル・技術

BLEUとは?参照訳との重なりを数える——機械翻訳の古典的評価指標

読み:ブルー / 英:BLEU(Bilingual Evaluation Understudy)

更新日: 読了目安:約6分

BLEU(Bilingual Evaluation Understudy)は、機械翻訳の出力が人手の参照訳とどれだけ語順・語句が重なるか——n-gramの一致——を見て品質を自動評価する指標です。本記事はスコア計算式の暗記ではなく、「なぜ翻訳研究でBLEUが標準になったか」——評価指標としての設計——に焦点を当てます。

機械翻訳と評価の文脈

自然言語処理の代表タスクの一つが機械翻訳——ある言語の文を別の言語へ変換すること——です(G-340)。統計的機械翻訳からニューラル機械翻訳へと手法は進化しましたが、どの訳がより良いかを比較する必要は変わりません。

人手評価は信頼性が高い一方、コストと時間がかかります。BLEUは参照訳を正解として、機械の出力を素早く数値化する——自動評価指標の古典として広く使われてきました。

BLEUの考え方

試験では次の骨格で整理すれば十分なことが多いです。

  • 比較対象 — 機械翻訳の候補訳 vs 人手の参照訳(正解訳)
  • 一致の見方 — 連続する語の並び(n-gram)がどれだけ重なるか
  • 出力 — 0〜1付近のBLEUスコア(高いほど参照訳に近い一致)
  • 位置づけ評価指標。学習の損失関数とは別物

複数の参照訳がある場合、いずれかとの一致を認める設計もあります。同じ意味でも語順や言い回しが違えばスコアは変わりうる——という性質は、スコアの読み方の記事でも触れます。

n-gram一致の意味

n-gramは連続する n 個の語(や文字)の並びです(G-334)。BLEUでは、1-gram(単語)、2-gram(語のペア)……と複数の粒度で一致度を見ます。

粒度例(英→日のイメージ)評価への効き
1-gram「猫」「座る」など単語単位語彙の当たり外れ
2-gram以上「猫が」「が座る」など連続語順・フレーズの一致

単語だけ揃っても語順が崩れていれば高得点にならない——というのが、n-gramベース評価の要点です。ただし、同義語の言い換えは一致とみなされないなど、限界もあります(BLEUスコアの記事で詳述)。

似た用語との区別

用語何かBLEUとの違い
n-gramモデル次の語を予測する言語モデルBLEUは評価指標。モデルではない
損失関数学習時に最小化する目的BLEUは通常評価時に使う指標
ROUGE要約の自動評価(Recall志向)BLEU=翻訳・Precision寄り
正解率・F値分類タスクの指標BLEUは翻訳向け
ディープブルーチェス対戦システム発音が近いだけで無関係(TF-324)

試験で押さえるポイント

  • 分野 — 主に機械翻訳の自動評価(G-340の文脈)
  • 原理 — 候補訳と参照訳のn-gram一致
  • 種別評価指標。損失関数・言語モデルではない
  • 限界の示唆 — 自動指標だけでは品質・事実性を完全には測れない(G-350)

演習で確認する

G検定:G-340G-350G-334G-345TF-324

すり替えに注意

誤った説明正しい理解
BLEU=n-gramモデル評価指標 vs 言語モデル
BLEU=損失関数評価指標 vs 学習の目的関数
BLEU=ディープブルー翻訳評価 vs チェスシステム
BLEU=機械翻訳そのもの翻訳の評価をする指標
BLEUが高ければ事実性も保証参照訳との一致であり、真偽の保証ではない(G-350)

よくある質問

BLEUは何を評価しますか?

主に機械翻訳の品質です。システムが出力した訳文(候補訳)と、人手で用意した正解訳(参照訳)の間で、連続する語の並び(n-gram)がどれだけ一致するかを見て、自動的にスコア化します。

BLEUとn-gramモデルは同じですか?

違います。n-gramモデルは直前の語列から次の語の確率を予測する言語モデルです。BLEUは翻訳出力を評価する指標であり、モデルそのものではありません。BLEUの計算ではn-gramという概念を使いますが、目的が異なります。

BLEUはディープブルー(Deep Blue)ですか?

いいえ。BLEUは機械翻訳の評価指標です。ディープブルーはIBMのチェス対戦システムであり、発音が近いだけで意味は全く異なります。