モデル・技術

MMLUとは?57教科の4択で測る——LLMの百科事典力ベンチマーク

読み:エムエムエルユー / 英:MMLU(Massive Multitask Language Understanding)

更新日: 読了目安:約6分

MMLUは、57の学問分野にわたる4択問題LLMの知識の広さを測るベンチマークです。歴史から医学、法律から数学まで——単一タスクの精度ではなく、百科事典的な知識量を1つのスコアにまとめる——本記事は57教科の暗記より、「なぜ4択の横断試験がLLM評価の定番になったか」に焦点を当てます。

何を測るか

MMLUの正式名 Massive Multitask Language Understanding は、「大量のタスクにわたる言語理解」を意味します。各タスクは学問分野ごとの4択クイズ——大学レベルの知識を含む57分野、約1万4千問規模のデータセットです。

観点MMLUの設計
分野人文・社会・STEM・医学・法律など横断
形式4つの選択肢から正解を選ぶ多肢選択
目的基盤モデル汎用知識を1指標で比較(G-396
位置づけモデル名ではなく評価用ベンチマーク

文章生成が自然に見えることと、専門分野の正答率が高いことは別問題——MMLUは後者を客観的に数える道具です。

採点の流れ

  • 問題提示 — 分野・質問文・4つの選択肢A〜Dをモデルへ入力
  • 回答生成 — LLMが正解と思われる選択肢(またはその文字)を出力
  • 正誤判定 — 正解ラベルと照合し、正答率(accuracy)を計算
  • 集計 — 分野別・全体の平均スコアを報告

HumanEvalコードの実行結果で採点するのに対し、MMLUは選択肢の一致で採点——どちらもベンチマークですが、正解の定義が異なります。

Zero-shotとFew-shot

MMLUの報告では、問題例を与えずに解かせるZero-shotや、各分野で数問の例を見せてから解かせるFew-shotが使われます(G-395)。

設定内容試験向けの整理
Zero-shot例なしで直接回答事前学習だけでどこまで通用するか
Few-shot数問の例をプロンプトに含める文脈内学習の効果も含めた評価
ファインチューニングベンチマーク自体で追加学習MMLUの標準報告とは別設定。すり替え注意

他ベンチマークとの違い

ベンチマーク測るもの採点の軸
GLUE自然言語理解(複数NLUタスク)分類・類推などの精度(G-348TF-137
MMLU多分野の知識4択の正答率
HumanEvalコード生成ユニットテストの合否

GLUEが「言語理解の幅」、HumanEvalが「実装力」なら、MMLUは学問知識の幅——LLMの性能表に並ぶ指標の役割分担を意識すると整理しやすいです。

スコアの読み方

MMLUのスコアが高いからといって、実務の専門判断を代替できるわけではありません(TF-0473)。4択の形式知と、個別事情を踏まえた判断は別物です。

  • 高スコアの意味 — 広い分野で選択式問題に強い。モデル選定の参考指標
  • 限界 — 最新情報・地域固有の知識は学習データの切れ目に依存
  • すり替え — ベンチマーク点数=実世界での安全性・正確性、とは限らない

試験で押さえるポイント

  • 定義 — 57分野の4択でLLMの多分野知識を測るベンチマーク
  • 指標 — 正答率(accuracy)
  • 対比 — GLUE=NLUタスク、HumanEval=コード、MMLU=学問知識
  • 位置づけ — 評価データセット。GPT・Claudeなどのモデル名ではない

演習で確認する

G検定:G-348G-396G-395TF-137

生成AIパスポート:TF-0473

すり替えに注意

誤った説明正しい理解
MMLU=LLMベンチマーク vs モデル
MMLU=HumanEval学問4択 vs コード実行採点
MMLU=GLUE多分野知識 vs NLUタスク群
MMLU=GPT評価データセット vs モデルファミリー
MMLU高得点=専門家代替選択式知識 vs 個別の専門判断

よくある質問

MMLUは何を測るベンチマークですか?

歴史、法律、医学、数学など57の学問分野の4択問題で、大規模言語モデルがどれだけ広い知識を持つかを測るベンチマークです。各問題の正答率を集計し、モデル間の百科事典的な知識量を比較します。

MMLUとGLUEは同じですか?

同じではありません。GLUEは自然言語理解の複数タスクでモデル性能を比較するベンチマークです。MMLUは学問分野横断の選択式問題で広い知識を測ります。どちらも評価用データセットですが、測る能力の幅と問題形式が異なります。

MMLUとChatGPTは同じですか?

同じではありません。MMLUはモデル性能を測るベンチマークの名称であり、ChatGPTはOpenAIの対話サービスです。ChatGPTのようなLLMがMMLUでスコアを報告することはありますが、ベンチマーク名とサービス名は別物です。