モデル・技術

潜在拡散モデルとは?Latent Diffusion・Stable Diffusionの基盤

読み:せんざいかくさんもでる / 英:Latent Diffusion

更新日: 読了目安:約6分

潜在拡散モデル(Latent Diffusion)は、高解像度のピクセル空間ではなく、圧縮された潜在空間拡散モデルのノイズ付加・除去を行う手法です。本記事は拡散の数学全般ではなく、なぜ速く・軽くなるか——ピクセル空間とのコスト比較——に焦点を当てます。

試験で問われる見方

潜在拡散単独の定義問題は少ないですが、拡散モデルの一種で計算を抑えるという理解が役立ちます。基礎は拡散モデルG-377)とセットで学びます。

Stable DiffusionがオープンなText-to-Imageの代表として出る場合、潜在拡散ベースである点を結びつけられるとよいです。

演習で確認する

関連:G-377TF-0184

潜在拡散とは

フル解像度の画像に直接拡散をかけると、メモリと計算量が膨大になります。潜在拡散は、オートエンコーダ等で画像を低次元の潜在表現 z に圧縮し、その z 上で拡散・逆拡散を行います。最後にデコーダでピクセル画像に戻します。

「潜在(latent)」は人間に直接見えない中間表現のことで、意味的・構造的な情報が圧縮されて保持されていると考えられます。

ピクセル拡散との比較

観点ピクセル空間の拡散潜在拡散
演算の対象全ピクセル・全チャネル圧縮後の低次元テンソル
メモリ大きい相対的に小さい
速度遅くなりやすい実用化しやすい
品質理論上は高精細VAEの品質に依存。十分高品質な実績

処理の流れ

  1. エンコード — 画像 → 潜在 z
  2. 潜在空間で拡散・逆拡散拡散モデルと同様の考え方
  3. テキスト条件 — プロンプトをクロスアテンション等で注入(Text-to-Image
  4. デコード — 潜在 z → 出力画像

構図の細かい制御にはControlNetなどの追加モジュールが使われることもあります。

製品との関係

Stable Diffusionは潜在拡散の代表例として広く知られ、ローカル実行やオープンウェイトの文化を広めました。DALL·EImagenも別アーキテクチャですが、いずれもテキスト画像生成の文脈で比較されます。

製品の詳細・利用規約はAIツール一覧を参照してください。

よくある質問

潜在拡散と拡散モデルは別物?

潜在拡散は拡散モデルの実装・効率化の一形態です。対比するのは主にピクセル空間での拡散です。

Stable Diffusion=潜在拡散?

Stable Diffusionは潜在拡散を用いたモデルファミリーの代表です。バージョン差はありますが、基本思想は同じです。

LLMの潜在表現と同じ?

「潜在」という語は共通ですが、画像VAEの潜在空間とLLMの内部表現は別物です。LLMはテキスト生成が主目的です。