拡散モデル(Diffusion Model/ノイズ除去拡散)は、画像などのデータに段階的にノイズを加え、逆にノイズを除去して復元することで新しいサンプルを生成する生成AIの手法です。本記事はテキスト画像生成のタスク定義ではなく、順過程と逆過程のパイプライン——試験で問われる核心——に焦点を当てます。
試験で問われる見方
G検定の定番は、「データにノイズを加える過程と、そのノイズを除去する過程を学習して生成を行う」(G-377)。決定木・割引率・音声フォルマントなど別分野の説明は×です。
生成AIパスポートでは、拡散モデルが画像生成AIの代表的仕組みの一つである(TF-0184○)、SNSの情報拡散を数えるマーケ用語だけではない(TF-0185×)が問われます。
逆過程だけ学習し復元しない、という説明は×です(TF-154)。ノイズからの復元が生成に使われます。
拡散モデルとは
拡散モデルは、きれいな画像から出発して少しずつノイズを混ぜていく順拡散(forward diffusion)を定義し、その逆のノイズ除去(denoising)を学習します。生成時は純粋なノイズから始め、学習した逆過程を繰り返して画像を復元します。
近年のText-to-Imageの高品質化で主流となった手法の一つです。代表的手法としてDDPM、高速化の潜在拡散などが知られます。
順過程と逆過程
- 順過程(学習データの劣化)
元画像 x₀ に段階的にガウスノイズを加え、最終的にほぼノイズだけの状態 x_T へ近づける。
- 逆過程の学習
各ステップで「少しノイズを取り除く」ネットワークを学習。損失は予測ノイズや復元画像など、方式により異なる。
- 生成(サンプリング)
ランダムノイズから出発し、学習した逆ステップを T 回(または少ないステップに圧縮)繰り返して画像を得る。
試験では数式より「加える」と「除去する」の両方があることを押さえれば十分なことが多いです。
GANとの違い
| 観点 | 拡散モデル | GAN |
|---|---|---|
| 学習のイメージ | ノイズ付加・除去 | 生成器と識別器の対抗 |
| 安定性 | 比較的学習が安定しやすいとされる | モード崩壊などの課題が知られる |
| 試験 | ノイズ除去過程(G-378のB) | 生成器・識別器(G-378のA) |
よくある誤解
- マーケの「拡散」だけ — 機械学習の生成モデル(TF-0185)
- 逆過程を使わない — 生成に復元が必要(TF-154)
- Text-to-Imageそのもの — 拡散は手法、タスクは別記事
よくある質問
拡散モデルとDDPMは同じ?
DDPMは拡散モデルの代表的な一種です。DDPMの記事を参照。
Stable Diffusionは拡散モデル?
はい。潜在拡散を用いた実装の代表例です。Stable Diffusionも参照。
DALL·Eも拡散?
系列は拡散ベースとして知られます。DALL·Eの記事を参照。