ControlNet(コントロールネット)は、拡散モデルによる画像生成に、線画・深度・人物ポーズなどの補助条件を加えて構図や形状を制御する仕組みです。本記事はText-to-Imageの入出力定義ではなく、プロンプトだけでは足りない制御をどう足すか——条件の種類と実務——に焦点を当てます。
試験で問われる見方
ControlNet単独の定義問題はG検定・生成AIパスポートで頻出ではありませんが、拡散モデルに追加条件で生成を制御するという理解がCSV定義と一致します。
基礎は拡散モデルとStable Diffusionです。TF-0184のように拡散が画像生成の代表であることを押さえた上で、実務的な拡張として読むとよいです。
演習で確認する
ControlNetとは
テキストプロンプトだけでは、人物の姿勢や建物の透視が意図通りにならないことがあります。ControlNetは、元の拡散モデル(UNet等)に並列の制御ブランチを追加し、条件画像の情報を逆拡散過程へ注入します。ベースモデルの重みを固定したまま制御を学習できる設計として知られます。
制御条件の例
| 条件タイプ | 入力の例 | 用途 |
|---|---|---|
| Canny / 線画 | エッジ検出画像 | 輪郭を維持したスタイル変換 |
| Depth | 深度マップ | 遠近・レイアウトの維持 |
| OpenPose | 骨格キーポイント | 人物ポーズの指定 |
| Segmentation | 領域マスク | オブジェクト配置の制御 |
いずれもプロンプトと併用するのが一般的です。
Stable Diffusionとの組み合わせ
- ベース — Stable Diffusion(潜在拡散)
- 条件画像 — 上記の制御マップを準備
- ControlNet — 条件に沿った生成
- 任意 — LoRAで画風・ドメイン適応
オープンソースのワークフロー(ComfyUI、Automatic1111等)でよく使われます。
限界と注意
- 条件画像の品質が出力に直結する
- 実在人物のポーズ・肖像の無断利用は著作権・肖像権のリスク
- 制御が強すぎると多様性が失われる
- ベースモデル・ControlNetの組み合わせ互換に注意
よくある質問
ControlNetは単体で画像を生成する?
いいえ。拡散モデルへの追加制御モジュールです。ベースモデルが必要です。
Text-to-Imageと同じ?
Text-to-Imageはタスク名。ControlNetはそのタスクをより細かく制御する技法です。
DALL·Eにもある?
製品によっては参考画像やマスクで編集できますが、ControlNetは主にオープン系SDエコシステムの用語として知られます。