テキスト画像生成(Text-to-Image)は、文章による指示(プロンプト)から画像を生成する生成AIのタスクです。本記事は拡散モデルの数式解説ではなく、入出力のモダリティと実務リスク——何が「Text-to-Image」で、何と混同しやすいか——に焦点を当てます。
試験で問われる見方
定義は「文章による指示から画像を生成する技術やサービス」(TF-0190)。画像を見て人間が文章を書き写す手作業や、入力と出力が逆の説明は×です(TF-0191)。
画像生成AI全般では、プロンプトや参考画像から生成・編集する用途(TF-0211)、権利・肖像・商標の確認が必要、という論点もセットです。
テキスト画像生成とは
Text-to-Imageは、入力がテキスト、出力が画像という方向の生成タスクを指します。「夕焼けの富士山を水彩風で」といったプロンプトを渡すと、それに沿った画像が得られるイメージです。
製品名(DALL·E、Midjourney、Stable Diffusionなど)はAIツール一覧に集約し、本記事ではタスク・概念として整理します。
モダリティの地図
| タスク例 | 入力 → 出力 | 試験での注意 |
|---|---|---|
| Text-to-Image | テキスト → 画像 | 本記事の主題 |
| Image-to-Text | 画像 → テキスト(キャプション等) | 方向が逆。混同× |
| LLM(テキスト生成) | テキスト → テキスト | 画像は出力しない |
| マルチモーダルAI | 複数種類を統合 | Text-to-Imageを含み得る(G-389) |
代表的な技術(概要)
試験では実装詳細より家族の名前と特徴が問われます。
画像生成AIとの違い
| 用語 | 焦点 |
|---|---|
| Text-to-Image | テキスト入力から画像を作るタスク名 |
| 画像生成AI | 画像を生成するシステム・サービス全般(参考画像入力も含む) |
試験文脈では近い語として使われることもありますが、定義問題では入出力の方向を確認してください。
利用時の注意
- 著作権・類似 — 著作権、AI生成物の著作権
- 肖像権・商標 — 実在人物・ロゴの生成(TF-0211)
- ディープフェイク — 顔・声のなりすまし悪用
- 自動保証はない — 権利関係をサービスが保証するわけではない(HQ-0343)
プロンプト設計はプロンプトの記事と併用してください。