BLEU(Bilingual Evaluation Understudy)は、機械翻訳の出力が人手の参照訳とどれだけ語順・語句が重なるか——n-gramの一致——を見て品質を自動評価する指標です。本記事はスコア計算式の暗記ではなく、「なぜ翻訳研究でBLEUが標準になったか」——評価指標としての設計——に焦点を当てます。
機械翻訳と評価の文脈
自然言語処理の代表タスクの一つが機械翻訳——ある言語の文を別の言語へ変換すること——です(G-340)。統計的機械翻訳からニューラル機械翻訳へと手法は進化しましたが、どの訳がより良いかを比較する必要は変わりません。
人手評価は信頼性が高い一方、コストと時間がかかります。BLEUは参照訳を正解として、機械の出力を素早く数値化する——自動評価指標の古典として広く使われてきました。
BLEUの考え方
試験では次の骨格で整理すれば十分なことが多いです。
- 比較対象 — 機械翻訳の候補訳 vs 人手の参照訳(正解訳)
- 一致の見方 — 連続する語の並び(n-gram)がどれだけ重なるか
- 出力 — 0〜1付近のBLEUスコア(高いほど参照訳に近い一致)
- 位置づけ — 評価指標。学習の損失関数とは別物
複数の参照訳がある場合、いずれかとの一致を認める設計もあります。同じ意味でも語順や言い回しが違えばスコアは変わりうる——という性質は、スコアの読み方の記事でも触れます。
n-gram一致の意味
n-gramは連続する n 個の語(や文字)の並びです(G-334)。BLEUでは、1-gram(単語)、2-gram(語のペア)……と複数の粒度で一致度を見ます。
| 粒度 | 例(英→日のイメージ) | 評価への効き |
|---|---|---|
| 1-gram | 「猫」「座る」など単語単位 | 語彙の当たり外れ |
| 2-gram以上 | 「猫が」「が座る」など連続 | 語順・フレーズの一致 |
単語だけ揃っても語順が崩れていれば高得点にならない——というのが、n-gramベース評価の要点です。ただし、同義語の言い換えは一致とみなされないなど、限界もあります(BLEUスコアの記事で詳述)。
似た用語との区別
| 用語 | 何か | BLEUとの違い |
|---|---|---|
| n-gramモデル | 次の語を予測する言語モデル | BLEUは評価指標。モデルではない |
| 損失関数 | 学習時に最小化する目的 | BLEUは通常評価時に使う指標 |
| ROUGE | 要約の自動評価(Recall志向) | BLEU=翻訳・Precision寄り |
| 正解率・F値 | 分類タスクの指標 | BLEUは翻訳向け |
| ディープブルー | チェス対戦システム | 発音が近いだけで無関係(TF-324) |
試験で押さえるポイント
- 分野 — 主に機械翻訳の自動評価(G-340の文脈)
- 原理 — 候補訳と参照訳のn-gram一致
- 種別 — 評価指標。損失関数・言語モデルではない
- 限界の示唆 — 自動指標だけでは品質・事実性を完全には測れない(G-350)
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| BLEU=n-gramモデル | 評価指標 vs 言語モデル |
| BLEU=損失関数 | 評価指標 vs 学習の目的関数 |
| BLEU=ディープブルー | 翻訳評価 vs チェスシステム |
| BLEU=機械翻訳そのもの | 翻訳の評価をする指標 |
| BLEUが高ければ事実性も保証 | 参照訳との一致であり、真偽の保証ではない(G-350) |
よくある質問
BLEUは何を評価しますか?
主に機械翻訳の品質です。システムが出力した訳文(候補訳)と、人手で用意した正解訳(参照訳)の間で、連続する語の並び(n-gram)がどれだけ一致するかを見て、自動的にスコア化します。
BLEUとn-gramモデルは同じですか?
違います。n-gramモデルは直前の語列から次の語の確率を予測する言語モデルです。BLEUは翻訳出力を評価する指標であり、モデルそのものではありません。BLEUの計算ではn-gramという概念を使いますが、目的が異なります。
BLEUはディープブルー(Deep Blue)ですか?
いいえ。BLEUは機械翻訳の評価指標です。ディープブルーはIBMのチェス対戦システムであり、発音が近いだけで意味は全く異なります。