Mixtralは、Mistral AIのMoE(Mixture of Experts)型LLMです。パラメータ総数は大きいのに、推論時はルータが選んだ少数の専門家だけを動かす——Mistral 7Bが「小さくて強い密モデル」なのに対し、Mixtralは「大きいがら空(スパース)に賢く」——本記事はエキスパート数の暗記より、「なぜ全層を毎回計算しないのか」に焦点を当てます。
密モデルとの違い
標準のTransformer型LLMは、各層の全パラメータが毎トークンで使われる——密(Dense)モデルです。パラメータを増やすほど賢くなりやすい一方、推論コストも線形に膨らみます。
| 方式 | 推論時の計算 | 試験向けの整理 |
|---|---|---|
| 密モデル | 全重みを毎回使用 | Mistral 7B、LLaMAなど |
| MoEモデル | 一部の専門家だけ活性化 | Mixtral、一部の超大規模LLM |
MoEは「パラメータ容量は大きいが、実際に動くのは一部」——メモリ上の総パラメータ数と、1トークンあたりの計算量は別物、と整理すると試験のすり替えに強くなります。
ルータと専門家
MoE層の典型構成は次の2部品です。
- Expert(専門家) — 複数のフィードフォワードネット。それぞれ異なる「得意分野」を学習しうる
- Router(ルータ/ゲート) — 入力トークンごとに、どの専門家を使うかをスコアリングして選ぶ
- スパース活性化 — 例えば8人中2人だけ起動——残りは計算しない
- 出力 — 選ばれた専門家の出力を重み付き合成
比喩としては、大きな病院(多数の専門医)にいるが、受付(ルータ)が症状に応じて関連科だけを呼ぶ——全診療科を毎回回す必要がない、というイメージです。
Mixtral 8x7Bの読み方
代表例 Mixtral 8x7B は「8つの約7B級専門家」——のような命名として広く引用されます。試験では次を区別します。
| 数字の意味 | 誤解しやすい点 |
|---|---|
| 8x | 専門家の本数(層ごとのExpert数) |
| 7B | 各専門家の規模感(厳密なパラメータ数は版により異なる) |
| 活性化数 | 毎トークン2専門家など、全8つは動かない |
「8×7B=56Bを毎回計算」ではない——総容量と実効コストを分けて答えるのが安全です。GQAやKVキャッシュと同様、大規模LLMの推論効率が設計の主戦場です。
オープンウェイトとして
MixtralはMistralファミリーの一部としてオープンウェイト公開され、自社GPUでのホストやファインチューニングの対象になります(G-396の基盤モデル文脈)。
利用時はモデルごとのライセンス条件を確認します(TF-478、TF-479)。オープンウェイト=無条件で商用利用可、とは限りません。
API経由のクラウド提供と、重みダウンロードのセルフホスト——Mistral記事が示す「閉源APIだけではない第三の道」は、Mixtralでも同じです。
試験で押さえるポイント
- 定義 — Mistral AIのMoE型オープンウェイトLLM
- 仕組み — ルータが少数のExpertだけを活性化(スパース)
- 目的 — 大規模パラメータと推論効率の両立
- 対比 — Mistral=ファミリー名、GPT=OpenAI、密モデル=全重み毎回使用
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| Mixtral=Mistralそのもの | MoE型の具体モデル vs ファミリー全体 |
| Mixtral=GPT | Mistral AI vs OpenAI |
| 8x7B=毎回56B計算 | 総容量 vs 活性化は少数Expert |
| MoE=LoRA | アーキテクチャ設計 vs 軽量ファインチューニング |
| Mixtral=Mixup | LLM名 vs データ拡張手法(綴りが近いが無関係) |
よくある質問
Mixtralは何をするLLMですか?
Mistral AIが開発するMoE型のオープンウェイト大規模言語モデルです。層ごとに複数の専門家ネットワークを持ち、入力に応じてルータが少数の専門家だけを選んで計算するため、全パラメータを毎トークンで動かす密モデルより推論効率が高い設計です。
MixtralとMistralは同じですか?
同じではありません。MistralはMistral AIのLLMファミリー全体を指す名称です。Mixtralはその中のMoEアーキテクチャを採用した具体的なモデル系列(例:Mixtral 8x7B)です。開発元は共通ですが、密モデルかMoEかで設計が異なります。
MixtralとGPTは同じですか?
同じではありません。MixtralはMistral AIのオープンウェイトMoE型LLMの名称であり、GPTはOpenAIのモデルファミリーです。どちらも大規模言語モデルですが、開発元・提供形態・アーキテクチャの整理が異なります。