モデル・技術

Mixtralとは?ルータが呼ぶ少数の専門家——全重みを毎回動かさないMoE型LLM

読み:ミクストラル / 英:Mixtral(Mistral AI)

更新日: 読了目安:約7分

Mixtralは、Mistral AIMoE(Mixture of Experts)LLMです。パラメータ総数は大きいのに、推論時はルータが選んだ少数の専門家だけを動かす——Mistral 7Bが「小さくて強い密モデル」なのに対し、Mixtralは「大きいがら空(スパース)に賢く」——本記事はエキスパート数の暗記より、「なぜ全層を毎回計算しないのか」に焦点を当てます。

密モデルとの違い

標準のTransformer型LLMは、各層の全パラメータが毎トークンで使われる——密(Dense)モデルです。パラメータを増やすほど賢くなりやすい一方、推論コストも線形に膨らみます。

方式推論時の計算試験向けの整理
密モデル全重みを毎回使用Mistral 7B、LLaMAなど
MoEモデル一部の専門家だけ活性化Mixtral、一部の超大規模LLM

MoEは「パラメータ容量は大きいが、実際に動くのは一部」——メモリ上の総パラメータ数と、1トークンあたりの計算量は別物、と整理すると試験のすり替えに強くなります。

ルータと専門家

MoE層の典型構成は次の2部品です。

  • Expert(専門家) — 複数のフィードフォワードネット。それぞれ異なる「得意分野」を学習しうる
  • Router(ルータ/ゲート) — 入力トークンごとに、どの専門家を使うかをスコアリングして選ぶ
  • スパース活性化 — 例えば8人中2人だけ起動——残りは計算しない
  • 出力 — 選ばれた専門家の出力を重み付き合成

比喩としては、大きな病院(多数の専門医)にいるが、受付(ルータ)が症状に応じて関連科だけを呼ぶ——全診療科を毎回回す必要がない、というイメージです。

Mixtral 8x7Bの読み方

代表例 Mixtral 8x7B は「8つの約7B級専門家」——のような命名として広く引用されます。試験では次を区別します。

数字の意味誤解しやすい点
8x専門家の本数(層ごとのExpert数)
7B各専門家の規模感(厳密なパラメータ数は版により異なる)
活性化数毎トークン2専門家など、全8つは動かない

「8×7B=56Bを毎回計算」ではない——総容量実効コストを分けて答えるのが安全です。GQAKVキャッシュと同様、大規模LLMの推論効率が設計の主戦場です。

オープンウェイトとして

MixtralはMistralファミリーの一部としてオープンウェイト公開され、自社GPUでのホストやファインチューニングの対象になります(G-396の基盤モデル文脈)。

利用時はモデルごとのライセンス条件を確認します(TF-478TF-479)。オープンウェイト=無条件で商用利用可、とは限りません。

API経由のクラウド提供と、重みダウンロードのセルフホスト——Mistral記事が示す「閉源APIだけではない第三の道」は、Mixtralでも同じです。

試験で押さえるポイント

  • 定義 — Mistral AIのMoE型オープンウェイトLLM
  • 仕組み — ルータが少数のExpertだけを活性化(スパース)
  • 目的 — 大規模パラメータと推論効率の両立
  • 対比 — Mistral=ファミリー名、GPT=OpenAI、密モデル=全重み毎回使用

演習で確認する

G検定:G-396TF-478TF-479

生成AIパスポート:TF-0142(開発元の区別)

すり替えに注意

誤った説明正しい理解
Mixtral=MistralそのものMoE型の具体モデル vs ファミリー全体
Mixtral=GPTMistral AI vs OpenAI
8x7B=毎回56B計算総容量 vs 活性化は少数Expert
MoE=LoRAアーキテクチャ設計 vs 軽量ファインチューニング
Mixtral=MixupLLM名 vs データ拡張手法(綴りが近いが無関係)

よくある質問

Mixtralは何をするLLMですか?

Mistral AIが開発するMoE型のオープンウェイト大規模言語モデルです。層ごとに複数の専門家ネットワークを持ち、入力に応じてルータが少数の専門家だけを選んで計算するため、全パラメータを毎トークンで動かす密モデルより推論効率が高い設計です。

MixtralとMistralは同じですか?

同じではありません。MistralはMistral AIのLLMファミリー全体を指す名称です。Mixtralはその中のMoEアーキテクチャを採用した具体的なモデル系列(例:Mixtral 8x7B)です。開発元は共通ですが、密モデルかMoEかで設計が異なります。

MixtralとGPTは同じですか?

同じではありません。MixtralはMistral AIのオープンウェイトMoE型LLMの名称であり、GPTはOpenAIのモデルファミリーです。どちらも大規模言語モデルですが、開発元・提供形態・アーキテクチャの整理が異なります。