DALL·Eとは？OpenAIのテキスト画像生成モデル

DALL·E（ダリー）は、OpenAIが開発するテキストから画像を生成するモデル系列の名称です。本記事は各世代のベンチマーク比較ではなく、Text-to-Imageタスクとの関係と試験での誤答パターン——概念のすり替えに注意——に焦点を当てます。

試験で問われる見方

G検定では、DALL·Eがテキストから画像を生成するモデルであり、Text-to-ImageやマルチモーダルAIと関係が深い（G-394）。不適切な説明として、MFCC（音声特徴量）など無関係な技術を選ぶ問題があります。

Text-to-Imageの定義問題では、DALL·Eが代表例の一つとして挙げられることがあります（G-391）。Image Captioning（画像→テキスト）と方向を混同しないでください。

演習で確認する

G検定：G-394、G-391

生成AIパスポート：TF-0190、TF-0211

名前は芸術家ダリとロボットWALL·Eにちなむと言われます。OpenAIの生成AI製品群の一つで、プロンプトに応じた画像生成・編集が可能です。技術的には拡散モデル系として説明されることが多いです。

対話型のChatGPTとは別製品ですが、エコシステム内で連携が強化されることもあります。試験ではモデル名とサービス名の対応に注意してください。

「DALL·E＝Text-to-Imageそのもの」ではありません。DALL·Eは実装の一例です。

試験で並ぶことがある代表例です（詳細バージョンは暗記不要）。

DALL·EとChatGPTは同じ？

別製品です。ChatGPTは主にテキスト対話、DALL·Eは画像生成が中心です。

DALL·E 2と3の違いは試験に出る？

世代番号の細部より、「OpenAIのText-to-Imageモデル」という位置づけが重要です。

生成画像は自由に使える？

利用規約と著作権を確認してください。自動的に安全とは限りません（TF-0211）。