DALL·E(ダリー)は、OpenAIが開発するテキストから画像を生成するモデル系列の名称です。本記事は各世代のベンチマーク比較ではなく、Text-to-Imageタスクとの関係と試験での誤答パターン——概念のすり替えに注意——に焦点を当てます。
試験で問われる見方
G検定では、DALL·Eがテキストから画像を生成するモデルであり、Text-to-ImageやマルチモーダルAIと関係が深い(G-394)。不適切な説明として、MFCC(音声特徴量)など無関係な技術を選ぶ問題があります。
Text-to-Imageの定義問題では、DALL·Eが代表例の一つとして挙げられることがあります(G-391)。Image Captioning(画像→テキスト)と方向を混同しないでください。
DALL·Eとは
名前は芸術家ダリとロボットWALL·Eにちなむと言われます。OpenAIの生成AI製品群の一つで、プロンプトに応じた画像生成・編集が可能です。技術的には拡散モデル系として説明されることが多いです。
対話型のChatGPTとは別製品ですが、エコシステム内で連携が強化されることもあります。試験ではモデル名とサービス名の対応に注意してください。
Text-to-Imageとの違い
| 用語 | 性質 |
|---|---|
| Text-to-Image | テキスト→画像のタスク名 |
| DALL·E | そのタスクを実現する特定のモデル系列(固有名詞) |
| 画像生成AI | サービス・システム全般の呼び方 |
「DALL·E=Text-to-Imageそのもの」ではありません。DALL·Eは実装の一例です。
他モデルとの比較
試験で並ぶことがある代表例です(詳細バージョンは暗記不要)。
- Stable Diffusion — オープン・ローカル向けの潜在拡散
- Imagen — Googleのテキスト画像生成系列
- GAN — 別系統の生成手法(歴史的)
よくある質問
DALL·EとChatGPTは同じ?
別製品です。ChatGPTは主にテキスト対話、DALL·Eは画像生成が中心です。
DALL·E 2と3の違いは試験に出る?
世代番号の細部より、「OpenAIのText-to-Imageモデル」という位置づけが重要です。
生成画像は自由に使える?
利用規約と著作権を確認してください。自動的に安全とは限りません。