BLEUとは？参照訳との重なりを数える——機械翻訳の古典的評価指標

BLEU（Bilingual Evaluation Understudy）は、機械翻訳の出力が人手の参照訳とどれだけ語順・語句が重なるか——n-gramの一致——を見て品質を自動評価する指標です。本記事はスコア計算式の暗記ではなく、「なぜ翻訳研究でBLEUが標準になったか」——評価指標としての設計——に焦点を当てます。

機械翻訳と評価の文脈

自然言語処理の代表タスクの一つが機械翻訳——ある言語の文を別の言語へ変換すること——です（G-340）。統計的機械翻訳からニューラル機械翻訳へと手法は進化しましたが、どの訳がより良いかを比較する必要は変わりません。

人手評価は信頼性が高い一方、コストと時間がかかります。BLEUは参照訳を正解として、機械の出力を素早く数値化する——自動評価指標の古典として広く使われてきました。

BLEUの考え方

試験では次の骨格で整理すれば十分なことが多いです。

比較対象 — 機械翻訳の候補訳 vs 人手の参照訳（正解訳）
一致の見方 — 連続する語の並び（n-gram）がどれだけ重なるか
出力 — 0〜1付近のBLEUスコア（高いほど参照訳に近い一致）
位置づけ — 評価指標。学習の損失関数とは別物

複数の参照訳がある場合、いずれかとの一致を認める設計もあります。同じ意味でも語順や言い回しが違えばスコアは変わりうる——という性質は、スコアの読み方の記事でも触れます。

n-gram一致の意味

n-gramは連続する n 個の語（や文字）の並びです（G-334）。BLEUでは、1-gram（単語）、2-gram（語のペア）……と複数の粒度で一致度を見ます。

粒度	例（英→日のイメージ）	評価への効き
1-gram	「猫」「座る」など単語単位	語彙の当たり外れ
2-gram以上	「猫が」「が座る」など連続	語順・フレーズの一致

単語だけ揃っても語順が崩れていれば高得点にならない——というのが、n-gramベース評価の要点です。ただし、同義語の言い換えは一致とみなされないなど、限界もあります（BLEUスコアの記事で詳述）。

似た用語との区別

用語	何か	BLEUとの違い
n-gramモデル	次の語を予測する言語モデル	BLEUは評価指標。モデルではない
損失関数	学習時に最小化する目的	BLEUは通常評価時に使う指標
ROUGE	要約の自動評価（Recall志向）	BLEU＝翻訳・Precision寄り
正解率・F値	分類タスクの指標	BLEUは翻訳向け
ディープブルー	チェス対戦システム	発音が近いだけで無関係（TF-324）

試験で押さえるポイント

分野 — 主に機械翻訳の自動評価（G-340の文脈）
原理 — 候補訳と参照訳のn-gram一致
種別 — 評価指標。損失関数・言語モデルではない
限界の示唆 — 自動指標だけでは品質・事実性を完全には測れない（G-350）

演習で確認する

G検定：G-340、G-350、G-334、G-345、TF-324

すり替えに注意

誤った説明	正しい理解
BLEU＝n-gramモデル	評価指標 vs 言語モデル
BLEU＝損失関数	評価指標 vs 学習の目的関数
BLEU＝ディープブルー	翻訳評価 vs チェスシステム
BLEU＝機械翻訳そのもの	翻訳の評価をする指標
BLEUが高ければ事実性も保証	参照訳との一致であり、真偽の保証ではない（G-350）

よくある質問

BLEUは何を評価しますか？

主に機械翻訳の品質です。システムが出力した訳文（候補訳）と、人手で用意した正解訳（参照訳）の間で、連続する語の並び（n-gram）がどれだけ一致するかを見て、自動的にスコア化します。

BLEUとn-gramモデルは同じですか？

違います。n-gramモデルは直前の語列から次の語の確率を予測する言語モデルです。BLEUは翻訳出力を評価する指標であり、モデルそのものではありません。BLEUの計算ではn-gramという概念を使いますが、目的が異なります。

BLEUはディープブルー（Deep Blue）ですか？

いいえ。BLEUは機械翻訳の評価指標です。ディープブルーはIBMのチェス対戦システムであり、発音が近いだけで意味は全く異なります。