ControlNetとは？拡散モデルの条件付き画像生成制御

ControlNet（コントロールネット）は、拡散モデルによる画像生成に、線画・深度・人物ポーズなどの補助条件を加えて構図や形状を制御する仕組みです。本記事はText-to-Imageの入出力定義ではなく、プロンプトだけでは足りない制御をどう足すか——条件の種類と実務——に焦点を当てます。

試験で問われる見方

ControlNet単独の定義問題はG検定・生成AIパスポートで頻出ではありませんが、拡散モデルに追加条件で生成を制御するという理解がCSV定義と一致します。

基礎は拡散モデルとStable Diffusionです。TF-0184のように拡散が画像生成の代表であることを押さえた上で、実務的な拡張として読むとよいです。

演習で確認する

関連：TF-0184、TF-0211（権利・肖像）

ControlNetとは

テキストプロンプトだけでは、人物の姿勢や建物の透視が意図通りにならないことがあります。ControlNetは、元の拡散モデル（UNet等）に並列の制御ブランチを追加し、条件画像の情報を逆拡散過程へ注入します。ベースモデルの重みを固定したまま制御を学習できる設計として知られます。

制御条件の例

条件タイプ	入力の例	用途
Canny / 線画	エッジ検出画像	輪郭を維持したスタイル変換
Depth	深度マップ	遠近・レイアウトの維持
OpenPose	骨格キーポイント	人物ポーズの指定
Segmentation	領域マスク	オブジェクト配置の制御

いずれもプロンプトと併用するのが一般的です。

Stable Diffusionとの組み合わせ

ベース — Stable Diffusion（潜在拡散）
条件画像 — 上記の制御マップを準備
ControlNet — 条件に沿った生成
任意 — LoRAで画風・ドメイン適応

オープンソースのワークフロー（ComfyUI、Automatic1111等）でよく使われます。

限界と注意

条件画像の品質が出力に直結する
実在人物のポーズ・肖像の無断利用は著作権・肖像権のリスク
制御が強すぎると多様性が失われる
ベースモデル・ControlNetの組み合わせ互換に注意

すり替えに注意

誤った説明	正しい理解
ControlNet＝単体の画像生成AI	拡散モデルへの追加制御モジュール
ControlNet＝Text-to-Image	タスク名 vs 制御技法（TF-0190）
ControlNetでプロンプト不要	プロンプトと併用が一般的
ControlNet＝DALL·Eの機能名	主にSDオープンエコシステムの用語

よくある質問

ControlNetは単体で画像を生成する？

いいえ。拡散モデルへの追加制御モジュールです。ベースモデルが必要です。

Text-to-Imageと同じ？

Text-to-Imageはタスク名。ControlNetはそのタスクをより細かく制御する技法です。

DALL·Eにもある？

製品によっては参考画像やマスクで編集できますが、ControlNetは主にオープン系SDエコシステムの用語として知られます。