モデル・技術

DALL·Eとは?OpenAIのテキスト画像生成モデル

読み:だりー / 英:DALL·E(DALL-E)

更新日: 読了目安:約6分

DALL·E(ダリー)は、OpenAIが開発するテキストから画像を生成するモデル系列の名称です。本記事は各世代のベンチマーク比較ではなく、Text-to-Imageタスクとの関係と試験での誤答パターン——概念のすり替えに注意——に焦点を当てます。

試験で問われる見方

G検定では、DALL·Eがテキストから画像を生成するモデルであり、Text-to-ImageやマルチモーダルAIと関係が深い(G-394)。不適切な説明として、MFCC(音声特徴量)など無関係な技術を選ぶ問題があります。

Text-to-Imageの定義問題では、DALL·Eが代表例の一つとして挙げられることがあります(G-391)。Image Captioning(画像→テキスト)と方向を混同しないでください。

演習で確認する

G検定:G-394G-391

生成AIパスポート:TF-0190TF-0211

DALL·Eとは

名前は芸術家ダリとロボットWALL·Eにちなむと言われます。OpenAIの生成AI製品群の一つで、プロンプトに応じた画像生成・編集が可能です。技術的には拡散モデル系として説明されることが多いです。

対話型のChatGPTとは別製品ですが、エコシステム内で連携が強化されることもあります。試験ではモデル名とサービス名の対応に注意してください。

Text-to-Imageとの違い

用語性質
Text-to-Imageテキスト→画像のタスク名
DALL·Eそのタスクを実現する特定のモデル系列(固有名詞)
画像生成AIサービス・システム全般の呼び方

「DALL·E=Text-to-Imageそのもの」ではありません。DALL·Eは実装の一例です。

他モデルとの比較

試験で並ぶことがある代表例です(詳細バージョンは暗記不要)。

  • Stable Diffusion — オープン・ローカル向けの潜在拡散
  • Imagen — Googleのテキスト画像生成系列
  • GAN — 別系統の生成手法(歴史的)

よくある質問

DALL·EとChatGPTは同じ?

別製品です。ChatGPTは主にテキスト対話、DALL·Eは画像生成が中心です。

DALL·E 2と3の違いは試験に出る?

世代番号の細部より、「OpenAIのText-to-Imageモデル」という位置づけが重要です。

生成画像は自由に使える?

利用規約と著作権を確認してください。自動的に安全とは限りません。