MMLUは、57の学問分野にわたる4択問題でLLMの知識の広さを測るベンチマークです。歴史から医学、法律から数学まで——単一タスクの精度ではなく、百科事典的な知識量を1つのスコアにまとめる——本記事は57教科の暗記より、「なぜ4択の横断試験がLLM評価の定番になったか」に焦点を当てます。
何を測るか
MMLUの正式名 Massive Multitask Language Understanding は、「大量のタスクにわたる言語理解」を意味します。各タスクは学問分野ごとの4択クイズ——大学レベルの知識を含む57分野、約1万4千問規模のデータセットです。
| 観点 | MMLUの設計 |
|---|---|
| 分野 | 人文・社会・STEM・医学・法律など横断 |
| 形式 | 4つの選択肢から正解を選ぶ多肢選択 |
| 目的 | 基盤モデルの汎用知識を1指標で比較(G-396) |
| 位置づけ | モデル名ではなく評価用ベンチマーク |
文章生成が自然に見えることと、専門分野の正答率が高いことは別問題——MMLUは後者を客観的に数える道具です。
採点の流れ
- 問題提示 — 分野・質問文・4つの選択肢A〜Dをモデルへ入力
- 回答生成 — LLMが正解と思われる選択肢(またはその文字)を出力
- 正誤判定 — 正解ラベルと照合し、正答率(accuracy)を計算
- 集計 — 分野別・全体の平均スコアを報告
HumanEvalがコードの実行結果で採点するのに対し、MMLUは選択肢の一致で採点——どちらもベンチマークですが、正解の定義が異なります。
Zero-shotとFew-shot
MMLUの報告では、問題例を与えずに解かせるZero-shotや、各分野で数問の例を見せてから解かせるFew-shotが使われます(G-395)。
| 設定 | 内容 | 試験向けの整理 |
|---|---|---|
| Zero-shot | 例なしで直接回答 | 事前学習だけでどこまで通用するか |
| Few-shot | 数問の例をプロンプトに含める | 文脈内学習の効果も含めた評価 |
| ファインチューニング | ベンチマーク自体で追加学習 | MMLUの標準報告とは別設定。すり替え注意 |
他ベンチマークとの違い
| ベンチマーク | 測るもの | 採点の軸 |
|---|---|---|
| GLUE | 自然言語理解(複数NLUタスク) | 分類・類推などの精度(G-348、TF-137) |
| MMLU | 多分野の知識 | 4択の正答率 |
| HumanEval | コード生成 | ユニットテストの合否 |
GLUEが「言語理解の幅」、HumanEvalが「実装力」なら、MMLUは学問知識の幅——LLMの性能表に並ぶ指標の役割分担を意識すると整理しやすいです。
スコアの読み方
MMLUのスコアが高いからといって、実務の専門判断を代替できるわけではありません(TF-0473)。4択の形式知と、個別事情を踏まえた判断は別物です。
- 高スコアの意味 — 広い分野で選択式問題に強い。モデル選定の参考指標
- 限界 — 最新情報・地域固有の知識は学習データの切れ目に依存
- すり替え — ベンチマーク点数=実世界での安全性・正確性、とは限らない
試験で押さえるポイント
- 定義 — 57分野の4択でLLMの多分野知識を測るベンチマーク
- 指標 — 正答率(accuracy)
- 対比 — GLUE=NLUタスク、HumanEval=コード、MMLU=学問知識
- 位置づけ — 評価データセット。GPT・Claudeなどのモデル名ではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| MMLU=LLM | ベンチマーク vs モデル |
| MMLU=HumanEval | 学問4択 vs コード実行採点 |
| MMLU=GLUE | 多分野知識 vs NLUタスク群 |
| MMLU=GPT | 評価データセット vs モデルファミリー |
| MMLU高得点=専門家代替 | 選択式知識 vs 個別の専門判断 |
よくある質問
MMLUは何を測るベンチマークですか?
歴史、法律、医学、数学など57の学問分野の4択問題で、大規模言語モデルがどれだけ広い知識を持つかを測るベンチマークです。各問題の正答率を集計し、モデル間の百科事典的な知識量を比較します。
MMLUとGLUEは同じですか?
同じではありません。GLUEは自然言語理解の複数タスクでモデル性能を比較するベンチマークです。MMLUは学問分野横断の選択式問題で広い知識を測ります。どちらも評価用データセットですが、測る能力の幅と問題形式が異なります。
MMLUとChatGPTは同じですか?
同じではありません。MMLUはモデル性能を測るベンチマークの名称であり、ChatGPTはOpenAIの対話サービスです。ChatGPTのようなLLMがMMLUでスコアを報告することはありますが、ベンチマーク名とサービス名は別物です。