潜在拡散モデル(Latent Diffusion)は、高解像度のピクセル空間ではなく、圧縮された潜在空間で拡散モデルのノイズ付加・除去を行う手法です。本記事は拡散の数学全般ではなく、なぜ速く・軽くなるか——ピクセル空間とのコスト比較——に焦点を当てます。
試験で問われる見方
潜在拡散単独の定義問題は少ないですが、拡散モデルの一種で計算を抑えるという理解が役立ちます。基礎は拡散モデル(G-377)とセットで学びます。
Stable DiffusionがオープンなText-to-Imageの代表として出る場合、潜在拡散ベースである点を結びつけられるとよいです。
潜在拡散とは
フル解像度の画像に直接拡散をかけると、メモリと計算量が膨大になります。潜在拡散は、オートエンコーダ等で画像を低次元の潜在表現 z に圧縮し、その z 上で拡散・逆拡散を行います。最後にデコーダでピクセル画像に戻します。
「潜在(latent)」は人間に直接見えない中間表現のことで、意味的・構造的な情報が圧縮されて保持されていると考えられます。
ピクセル拡散との比較
| 観点 | ピクセル空間の拡散 | 潜在拡散 |
|---|---|---|
| 演算の対象 | 全ピクセル・全チャネル | 圧縮後の低次元テンソル |
| メモリ | 大きい | 相対的に小さい |
| 速度 | 遅くなりやすい | 実用化しやすい |
| 品質 | 理論上は高精細 | VAEの品質に依存。十分高品質な実績 |
処理の流れ
- エンコード — 画像 → 潜在 z
- 潜在空間で拡散・逆拡散 — 拡散モデルと同様の考え方
- テキスト条件 — プロンプトをクロスアテンション等で注入(Text-to-Image)
- デコード — 潜在 z → 出力画像
構図の細かい制御にはControlNetなどの追加モジュールが使われることもあります。
製品との関係
Stable Diffusionは潜在拡散の代表例として広く知られ、ローカル実行やオープンウェイトの文化を広めました。DALL·EやImagenも別アーキテクチャですが、いずれもテキスト画像生成の文脈で比較されます。
製品の詳細・利用規約はAIツール一覧を参照してください。
よくある質問
潜在拡散と拡散モデルは別物?
潜在拡散は拡散モデルの実装・効率化の一形態です。対比するのは主にピクセル空間での拡散です。
Stable Diffusion=潜在拡散?
Stable Diffusionは潜在拡散を用いたモデルファミリーの代表です。バージョン差はありますが、基本思想は同じです。
LLMの潜在表現と同じ?
「潜在」という語は共通ですが、画像VAEの潜在空間とLLMの内部表現は別物です。LLMはテキスト生成が主目的です。