MMLUとは？57教科の4択で測る——LLMの百科事典力ベンチマーク

MMLUは、57の学問分野にわたる4択問題でLLMの知識の広さを測るベンチマークです。歴史から医学、法律から数学まで——単一タスクの精度ではなく、百科事典的な知識量を1つのスコアにまとめる——本記事は57教科の暗記より、「なぜ4択の横断試験がLLM評価の定番になったか」に焦点を当てます。

何を測るか

MMLUの正式名 Massive Multitask Language Understanding は、「大量のタスクにわたる言語理解」を意味します。各タスクは学問分野ごとの4択クイズ——大学レベルの知識を含む57分野、約1万4千問規模のデータセットです。

観点	MMLUの設計
分野	人文・社会・STEM・医学・法律など横断
形式	4つの選択肢から正解を選ぶ多肢選択
目的	基盤モデルの汎用知識を1指標で比較（G-396）
位置づけ	モデル名ではなく評価用ベンチマーク

文章生成が自然に見えることと、専門分野の正答率が高いことは別問題——MMLUは後者を客観的に数える道具です。

採点の流れ

問題提示 — 分野・質問文・4つの選択肢A〜Dをモデルへ入力
回答生成 — LLMが正解と思われる選択肢（またはその文字）を出力
正誤判定 — 正解ラベルと照合し、正答率（accuracy）を計算
集計 — 分野別・全体の平均スコアを報告

HumanEvalがコードの実行結果で採点するのに対し、MMLUは選択肢の一致で採点——どちらもベンチマークですが、正解の定義が異なります。

Zero-shotとFew-shot

MMLUの報告では、問題例を与えずに解かせるZero-shotや、各分野で数問の例を見せてから解かせるFew-shotが使われます（G-395）。

設定	内容	試験向けの整理
Zero-shot	例なしで直接回答	事前学習だけでどこまで通用するか
Few-shot	数問の例をプロンプトに含める	文脈内学習の効果も含めた評価
ファインチューニング	ベンチマーク自体で追加学習	MMLUの標準報告とは別設定。すり替え注意

他ベンチマークとの違い

ベンチマーク	測るもの	採点の軸
GLUE	自然言語理解（複数NLUタスク）	分類・類推などの精度（G-348、TF-137）
MMLU	多分野の知識	4択の正答率
HumanEval	コード生成	ユニットテストの合否

GLUEが「言語理解の幅」、HumanEvalが「実装力」なら、MMLUは学問知識の幅——LLMの性能表に並ぶ指標の役割分担を意識すると整理しやすいです。

スコアの読み方

MMLUのスコアが高いからといって、実務の専門判断を代替できるわけではありません（TF-0473）。4択の形式知と、個別事情を踏まえた判断は別物です。

高スコアの意味 — 広い分野で選択式問題に強い。モデル選定の参考指標
限界 — 最新情報・地域固有の知識は学習データの切れ目に依存
すり替え — ベンチマーク点数＝実世界での安全性・正確性、とは限らない

試験で押さえるポイント

定義 — 57分野の4択でLLMの多分野知識を測るベンチマーク
指標 — 正答率（accuracy）
対比 — GLUE＝NLUタスク、HumanEval＝コード、MMLU＝学問知識
位置づけ — 評価データセット。GPT・Claudeなどのモデル名ではない

演習で確認する

G検定：G-348、G-396、G-395、TF-137

生成AIパスポート：TF-0473

すり替えに注意

誤った説明	正しい理解
MMLU＝LLM	ベンチマーク vs モデル
MMLU＝HumanEval	学問4択 vs コード実行採点
MMLU＝GLUE	多分野知識 vs NLUタスク群
MMLU＝GPT	評価データセット vs モデルファミリー
MMLU高得点＝専門家代替	選択式知識 vs 個別の専門判断

よくある質問

MMLUは何を測るベンチマークですか？

歴史、法律、医学、数学など57の学問分野の4択問題で、大規模言語モデルがどれだけ広い知識を持つかを測るベンチマークです。各問題の正答率を集計し、モデル間の百科事典的な知識量を比較します。

MMLUとGLUEは同じですか？

同じではありません。GLUEは自然言語理解の複数タスクでモデル性能を比較するベンチマークです。MMLUは学問分野横断の選択式問題で広い知識を測ります。どちらも評価用データセットですが、測る能力の幅と問題形式が異なります。

MMLUとChatGPTは同じですか？

同じではありません。MMLUはモデル性能を測るベンチマークの名称であり、ChatGPTはOpenAIの対話サービスです。ChatGPTのようなLLMがMMLUでスコアを報告することはありますが、ベンチマーク名とサービス名は別物です。