生成AI活用

テキスト画像生成(Text-to-Image)とは?タスク・技術・リスク

読み:てきすとがぞうせいせい / 英:Text-to-Image

更新日: 読了目安:約6分

テキスト画像生成(Text-to-Image)は、文章による指示(プロンプト)から画像を生成する生成AIのタスクです。本記事は拡散モデルの数式解説ではなく、入出力のモダリティと実務リスク——何が「Text-to-Image」で、何と混同しやすいか——に焦点を当てます。

試験で問われる見方

定義は「文章による指示から画像を生成する技術やサービス」TF-0190)。画像を見て人間が文章を書き写す手作業や、入力と出力が逆の説明は×です(TF-0191)。

画像生成AI全般では、プロンプトや参考画像から生成・編集する用途(TF-0211)、権利・肖像・商標の確認が必要、という論点もセットです。

演習で確認する

生成AIパスポート:TF-0190TF-0191TF-0211HQ-0343

G検定:G-394(DALL·EとText-to-Image)G-377(拡散モデル)

テキスト画像生成とは

Text-to-Imageは、入力がテキスト、出力が画像という方向の生成タスクを指します。「夕焼けの富士山を水彩風で」といったプロンプトを渡すと、それに沿った画像が得られるイメージです。

製品名(DALL·E、Midjourney、Stable Diffusionなど)はAIツール一覧に集約し、本記事ではタスク・概念として整理します。

モダリティの地図

タスク例 入力 → 出力 試験での注意
Text-to-Image テキスト → 画像 本記事の主題
Image-to-Text 画像 → テキスト(キャプション等) 方向が逆。混同×
LLM(テキスト生成) テキスト → テキスト 画像は出力しない
マルチモーダルAI 複数種類を統合 Text-to-Imageを含み得る(G-389

代表的な技術(概要)

試験では実装詳細より家族の名前と特徴が問われます。

  • GAN — 生成器と識別器の対抗学習(古典的な画像生成)
  • 拡散モデル(Diffusion Model) — ノイズ付加と復元で生成(G-377)。近年の高品質画像生成で主流
  • CLIP等 — テキストと画像の対応学習。プロンプト理解に寄与

いずれも生成AIの一分野であり、LLMそのものとは別です。

画像生成AIとの違い

用語 焦点
Text-to-Image テキスト入力から画像を作るタスク名
画像生成AI 画像を生成するシステム・サービス全般(参考画像入力も含む)

試験文脈では近い語として使われることもありますが、定義問題では入出力の方向を確認してください。

利用時の注意

プロンプト設計はプロンプトの記事と併用してください。

よくある質問

Text-to-Imageは手作業で文章を書き写すこと?

いいえ。AIがテキストから画像を生成します(TF-0191)。

LLMと同じ?

別タスクです。LLMは主にテキスト生成、Text-to-Imageは画像生成です。

DALL·Eとの関係は?

DALL·EはText-to-Imageの代表例の一つとして試験に出ます(G-394)。

生成した画像は自由に使える?

サービス規約・権利確認が必要です。自動的に安全とは限りません。