Imagen(イマージェン)は、Googleが開発するテキスト画像生成向けの拡散モデルファミリーです。本記事は世代ごとのベンチマークではなく、開発元・強み・他社モデルとの違い——固有名詞モデルの地図——に焦点を当てます。
試験で問われる見方
Imagen単独の詳細問題は少ないですが、Googleのテキスト画像生成モデルとしてDALL·E(OpenAI)、Stable Diffusion(Stability AI等)と並べて認識できるとよいです。
基礎は拡散モデル(TF-0184、G-377)とText-to-Imageの定義です。
Imagenとは
Imagenは、大規模な言語モデルでテキストを理解し、拡散モデルで高解像度画像を生成する、という二段構成で紹介されることが多い系列です。GoogleのGeminiなど他製品との連携も進んでいます。
UI・課金・APIの実務はAIツール一覧を参照してください。
特徴
他モデルとの比較
| モデル | 開発元 | 試験での覚え方 |
|---|---|---|
| Imagen | Text-to-Image・拡散 | |
| DALL·E | OpenAI | 同上 |
| Stable Diffusion | Stability AI等 | オープン・潜在拡散 |
| GAN | (手法) | 対抗学習。歴史的代表 |
よくある質問
ImagenとGeminiは同じ?
別製品ラインですが、マルチモーダル機能で近づくこともあります。試験では開発元と主用途を区別してください。
Imagen 3は試験に出る?
バージョン番号より「Googleの画像生成モデル」という位置づけが重要です。
オープンソース?
Stable Diffusionのようなオープンウェイト文化とは異なり、主にクラウドサービスとして提供されます。利用条件は公式を確認してください。