Mixtralとは？ルータが呼ぶ少数の専門家——全重みを毎回動かさないMoE型LLM

Mixtralは、Mistral AIのMoE（Mixture of Experts）型LLMです。パラメータ総数は大きいのに、推論時はルータが選んだ少数の専門家だけを動かす——Mistral 7Bが「小さくて強い密モデル」なのに対し、Mixtralは「大きいがら空（スパース）に賢く」——本記事はエキスパート数の暗記より、「なぜ全層を毎回計算しないのか」に焦点を当てます。

密モデルとの違い

標準のTransformer型LLMは、各層の全パラメータが毎トークンで使われる——密（Dense）モデルです。パラメータを増やすほど賢くなりやすい一方、推論コストも線形に膨らみます。

方式	推論時の計算	試験向けの整理
密モデル	全重みを毎回使用	Mistral 7B、LLaMAなど
MoEモデル	一部の専門家だけ活性化	Mixtral、一部の超大規模LLM

MoEは「パラメータ容量は大きいが、実際に動くのは一部」——メモリ上の総パラメータ数と、1トークンあたりの計算量は別物、と整理すると試験のすり替えに強くなります。

ルータと専門家

MoE層の典型構成は次の2部品です。

Expert（専門家） — 複数のフィードフォワードネット。それぞれ異なる「得意分野」を学習しうる
Router（ルータ／ゲート） — 入力トークンごとに、どの専門家を使うかをスコアリングして選ぶ
スパース活性化 — 例えば8人中2人だけ起動——残りは計算しない
出力 — 選ばれた専門家の出力を重み付き合成

比喩としては、大きな病院（多数の専門医）にいるが、受付（ルータ）が症状に応じて関連科だけを呼ぶ——全診療科を毎回回す必要がない、というイメージです。

Mixtral 8x7Bの読み方

代表例 Mixtral 8x7B は「8つの約7B級専門家」——のような命名として広く引用されます。試験では次を区別します。

数字の意味	誤解しやすい点
8x	専門家の本数（層ごとのExpert数）
7B	各専門家の規模感（厳密なパラメータ数は版により異なる）
活性化数	毎トークン2専門家など、全8つは動かない

「8×7B＝56Bを毎回計算」ではない——総容量と実効コストを分けて答えるのが安全です。GQAやKVキャッシュと同様、大規模LLMの推論効率が設計の主戦場です。

オープンウェイトとして

MixtralはMistralファミリーの一部としてオープンウェイト公開され、自社GPUでのホストやファインチューニングの対象になります（G-396の基盤モデル文脈）。

利用時はモデルごとのライセンス条件を確認します（TF-478、TF-479）。オープンウェイト＝無条件で商用利用可、とは限りません。

API経由のクラウド提供と、重みダウンロードのセルフホスト——Mistral記事が示す「閉源APIだけではない第三の道」は、Mixtralでも同じです。

試験で押さえるポイント

定義 — Mistral AIのMoE型オープンウェイトLLM
仕組み — ルータが少数のExpertだけを活性化（スパース）
目的 — 大規模パラメータと推論効率の両立
対比 — Mistral＝ファミリー名、GPT＝OpenAI、密モデル＝全重み毎回使用

演習で確認する

G検定：G-396、TF-478、TF-479

生成AIパスポート：TF-0142（開発元の区別）

すり替えに注意

誤った説明	正しい理解
Mixtral＝Mistralそのもの	MoE型の具体モデル vs ファミリー全体
Mixtral＝GPT	Mistral AI vs OpenAI
8x7B＝毎回56B計算	総容量 vs 活性化は少数Expert
MoE＝LoRA	アーキテクチャ設計 vs 軽量ファインチューニング
Mixtral＝Mixup	LLM名 vs データ拡張手法（綴りが近いが無関係）

よくある質問

Mixtralは何をするLLMですか？

Mistral AIが開発するMoE型のオープンウェイト大規模言語モデルです。層ごとに複数の専門家ネットワークを持ち、入力に応じてルータが少数の専門家だけを選んで計算するため、全パラメータを毎トークンで動かす密モデルより推論効率が高い設計です。

MixtralとMistralは同じですか？

同じではありません。MistralはMistral AIのLLMファミリー全体を指す名称です。Mixtralはその中のMoEアーキテクチャを採用した具体的なモデル系列（例：Mixtral 8x7B）です。開発元は共通ですが、密モデルかMoEかで設計が異なります。

MixtralとGPTは同じですか？

同じではありません。MixtralはMistral AIのオープンウェイトMoE型LLMの名称であり、GPTはOpenAIのモデルファミリーです。どちらも大規模言語モデルですが、開発元・提供形態・アーキテクチャの整理が異なります。