潜在拡散モデルとは？Latent Diffusion・Stable Diffusionの基盤

潜在拡散モデル（Latent Diffusion）は、高解像度のピクセル空間ではなく、圧縮された潜在空間で拡散モデルのノイズ付加・除去を行う手法です。本記事は拡散の数学全般ではなく、なぜ速く・軽くなるか——ピクセル空間とのコスト比較——に焦点を当てます。

試験で問われる見方

潜在拡散単独の定義問題は少ないですが、拡散モデルの一種で計算を抑えるという理解が役立ちます。基礎は拡散モデル（G-377）とセットで学びます。

Stable DiffusionがオープンなText-to-Imageの代表として出る場合、潜在拡散ベースである点を結びつけられるとよいです。

演習で確認する

フル解像度の画像に直接拡散をかけると、メモリと計算量が膨大になります。潜在拡散は、オートエンコーダ等で画像を低次元の潜在表現 z に圧縮し、その z 上で拡散・逆拡散を行います。最後にデコーダでピクセル画像に戻します。

「潜在（latent）」は人間に直接見えない中間表現のことで、意味的・構造的な情報が圧縮されて保持されていると考えられます。

構図の細かい制御にはControlNetなどの追加モジュールが使われることもあります。

Stable Diffusionは潜在拡散の代表例として広く知られ、ローカル実行やオープンウェイトの文化を広めました。DALL·EやImagenも別アーキテクチャですが、いずれもテキスト画像生成の文脈で比較されます。

製品の詳細・利用規約はAIツール一覧を参照してください。

潜在拡散と拡散モデルは別物？

潜在拡散は拡散モデルの実装・効率化の一形態です。対比するのは主にピクセル空間での拡散です。

Stable Diffusion＝潜在拡散？

Stable Diffusionは潜在拡散を用いたモデルファミリーの代表です。バージョン差はありますが、基本思想は同じです。

LLMの潜在表現と同じ？

「潜在」という語は共通ですが、画像VAEの潜在空間とLLMの内部表現は別物です。LLMはテキスト生成が主目的です。