Stable Diffusionとは？オープン画像生成・潜在拡散モデル

Stable Diffusion（スタブルディフュージョン）は、潜在拡散モデルを用いたオープンなテキスト画像生成モデルのファミリーです。本記事はバージョンごとの性能比較ではなく、なぜ広まったか・何と混同しないか——エコシステムと実務の視点——に焦点を当てます。

試験で問われる見方

固有名詞としての細かいバージョン差より、テキストから画像を生成する拡散ベースのモデルであること、Text-to-Imageの代表例の一つとして拡散モデルと関連づけられることが重要です。

DALL·EやImagenと並ぶ「名前のある画像生成モデル」として比較問題に出ることがあります。各社の最新版番号の暗記は不要です。

演習で確認する

関連：TF-0184、G-394（DALL·E）、TF-0211（権利確認）

Stability AIなどが広めた、ウェイトや仕様が公開されやすい画像生成モデル系列です。消費者向けGPUでも動かしやすい設計が特徴で、個人環境でのText-to-Image体験を大きく広げました。

製品としてのUI・課金はAIツール一覧に集約し、本記事はモデル名・技術の概念として整理します。

他の画像生成AIと共通の論点です。

誤った説明	正しい理解
SD＝拡散モデル全体	潜在拡散を用いた具体モデルファミリー（TF-0184）
SD＝Midjourney	別サービス・別モデル。いずれもText-to-Image（TF-0190）
SD＝GAN	拡散ベース vs 対抗学習（G-394）
生成画像は権利確認不要	肖像・商標等の確認が必要（TF-0211）

Stable Diffusionと拡散モデルは同じ？

Stable Diffusionは拡散モデル（潜在拡散）の具体的なモデルファミリーです。

Midjourneyと同じ？

別サービス・別モデルです。いずれもText-to-Imageを提供しますが、技術と利用形態は異なります。

社内データで追加学習できる？

技術的にはファインチューニングやLoRAが可能な場合があります。機密情報漏洩リスクとライセンスを必ず確認してください。