モデル・技術

Stable Diffusionとは?オープン画像生成・潜在拡散モデル

読み:すてーぶるでぃふゅーじょん / 英:Stable Diffusion

更新日: 読了目安:約6分

Stable Diffusion(スタブルディフュージョン)は、潜在拡散モデルを用いたオープンなテキスト画像生成モデルのファミリーです。本記事はバージョンごとの性能比較ではなく、なぜ広まったか・何と混同しないか——エコシステムと実務の視点——に焦点を当てます。

試験で問われる見方

固有名詞としての細かいバージョン差より、テキストから画像を生成する拡散ベースのモデルであること、Text-to-Imageの代表例の一つとして拡散モデルと関連づけられることが重要です。

DALL·EImagenと並ぶ「名前のある画像生成モデル」として比較問題に出ることがあります。各社の最新版番号の暗記は不要です。

演習で確認する

関連:TF-0184G-394(DALL·E)TF-0211(権利確認)

Stable Diffusionとは

Stability AIなどが広めた、ウェイトや仕様が公開されやすい画像生成モデル系列です。消費者向けGPUでも動かしやすい設計が特徴で、個人環境でのText-to-Image体験を大きく広げました。

製品としてのUI・課金はAIツール一覧に集約し、本記事はモデル名・技術の概念として整理します。

技術的な位置づけ

内容
生成の考え方拡散モデル(ノイズ除去)
効率化潜在拡散(潜在空間で拡散)
条件付けテキストエンコーダでプロンプトを注入
構図制御ControlNetなどの追加
用途適応LoRA等のファインチューニング

エコシステム

  • ローカル実行 — オンプレ・PCでの生成(機密データの扱いに注意)
  • コミュニティモデル — 追加学習済みウェイトの流通
  • 拡張機能 — ControlNet、LoRA、各種パイプライン
  • ライセンス — バージョンごとに利用条件が異なる。商用利用は要確認

利用時の注意

他の画像生成AIと共通の論点です。

よくある質問

Stable Diffusionと拡散モデルは同じ?

Stable Diffusionは拡散モデル(潜在拡散)の具体的なモデルファミリーです。

Midjourneyと同じ?

別サービス・別モデルです。いずれもText-to-Imageを提供しますが、技術と利用形態は異なります。

社内データで追加学習できる?

技術的にはファインチューニングやLoRAが可能な場合があります。機密情報漏洩リスクとライセンスを必ず確認してください。