Text-to-Imageと画像生成AIは同じ？

Text-to-Imageはテキストから画像を作るタスクの名前。画像生成AIはそれを実現するシステム・サービスを指すことが多い。

テキスト画像生成（Text-to-Image）とは？タスク・技術・リスク

テキスト画像生成（Text-to-Image）は、文章による指示（プロンプト）から画像を生成する生成AIのタスクです。本記事は拡散モデルの数式解説ではなく、入出力のモダリティと実務リスク——何が「Text-to-Image」で、何と混同しやすいか——に焦点を当てます。

定義は「文章による指示から画像を生成する技術やサービス」（TF-0190）。画像を見て人間が文章を書き写す手作業や、入力と出力が逆の説明は×です（TF-0191）。

画像生成AI全般では、プロンプトや参考画像から生成・編集する用途（TF-0211）、権利・肖像・商標の確認が必要、という論点もセットです。

演習で確認する

生成AIパスポート：TF-0190、TF-0191、TF-0211、HQ-0343

Text-to-Imageは、入力がテキスト、出力が画像という方向の生成タスクを指します。「夕焼けの富士山を水彩風で」といったプロンプトを渡すと、それに沿った画像が得られるイメージです。

製品名（DALL·E、Midjourney、Stable Diffusionなど）はAIツール一覧に集約し、本記事ではタスク・概念として整理します。

試験では実装詳細より家族の名前と特徴が問われます。

いずれも生成AIの一分野であり、LLMそのものとは別です。

用語	焦点
Text-to-Image	テキスト入力から画像を作るタスク名
画像生成AI	画像を生成するシステム・サービス全般（参考画像入力も含む）

試験文脈では近い語として使われることもありますが、定義問題では入出力の方向を確認してください。

プロンプト設計はプロンプトの記事と併用してください。

Text-to-Imageは手作業で文章を書き写すこと？

いいえ。AIがテキストから画像を生成します（TF-0191）。

LLMと同じ？

別タスクです。LLMは主にテキスト生成、Text-to-Imageは画像生成です。

DALL·Eとの関係は？

DALL·EはText-to-Imageの代表例の一つとして試験に出ます（G-394）。

生成した画像は自由に使える？

サービス規約・権利確認が必要です。自動的に安全とは限りません。