モデル・技術

ControlNetとは?拡散モデルの条件付き画像生成制御

読み:こんとろーるねっと / 英:ControlNet

更新日: 読了目安:約6分

ControlNet(コントロールネット)は、拡散モデルによる画像生成に、線画・深度・人物ポーズなどの補助条件を加えて構図や形状を制御する仕組みです。本記事はText-to-Imageの入出力定義ではなく、プロンプトだけでは足りない制御をどう足すか——条件の種類と実務——に焦点を当てます。

試験で問われる見方

ControlNet単独の定義問題はG検定・生成AIパスポートで頻出ではありませんが、拡散モデルに追加条件で生成を制御するという理解がCSV定義と一致します。

基礎は拡散モデルStable Diffusionです。TF-0184のように拡散が画像生成の代表であることを押さえた上で、実務的な拡張として読むとよいです。

演習で確認する

関連:TF-0184TF-0211(権利・肖像)

ControlNetとは

テキストプロンプトだけでは、人物の姿勢や建物の透視が意図通りにならないことがあります。ControlNetは、元の拡散モデル(UNet等)に並列の制御ブランチを追加し、条件画像の情報を逆拡散過程へ注入します。ベースモデルの重みを固定したまま制御を学習できる設計として知られます。

制御条件の例

条件タイプ入力の例用途
Canny / 線画エッジ検出画像輪郭を維持したスタイル変換
Depth深度マップ遠近・レイアウトの維持
OpenPose骨格キーポイント人物ポーズの指定
Segmentation領域マスクオブジェクト配置の制御

いずれもプロンプトと併用するのが一般的です。

Stable Diffusionとの組み合わせ

  1. ベースStable Diffusion潜在拡散
  2. 条件画像 — 上記の制御マップを準備
  3. ControlNet — 条件に沿った生成
  4. 任意LoRAで画風・ドメイン適応

オープンソースのワークフロー(ComfyUI、Automatic1111等)でよく使われます。

限界と注意

  • 条件画像の品質が出力に直結する
  • 実在人物のポーズ・肖像の無断利用は著作権・肖像権のリスク
  • 制御が強すぎると多様性が失われる
  • ベースモデル・ControlNetの組み合わせ互換に注意

よくある質問

ControlNetは単体で画像を生成する?

いいえ。拡散モデルへの追加制御モジュールです。ベースモデルが必要です。

Text-to-Imageと同じ?

Text-to-Imageはタスク名。ControlNetはそのタスクをより細かく制御する技法です。

DALL·Eにもある?

製品によっては参考画像やマスクで編集できますが、ControlNetは主にオープン系SDエコシステムの用語として知られます。