モデル・技術

Imagenとは?Googleのテキスト画像生成モデル

読み:いめーじぇん / 英:Imagen

更新日: 読了目安:約5分

Imagen(イマージェン)は、Googleが開発するテキスト画像生成向けの拡散モデルファミリーです。本記事は世代ごとのベンチマークではなく、開発元・強み・他社モデルとの違い——固有名詞モデルの地図——に焦点を当てます。

試験で問われる見方

Imagen単独の詳細問題は少ないですが、Googleのテキスト画像生成モデルとしてDALL·E(OpenAI)、Stable Diffusion(Stability AI等)と並べて認識できるとよいです。

基礎は拡散モデルTF-0184G-377)とText-to-Imageの定義です。

演習で確認する

関連:TF-0184G-391

Imagenとは

Imagenは、大規模な言語モデルでテキストを理解し、拡散モデルで高解像度画像を生成する、という二段構成で紹介されることが多い系列です。GoogleのGeminiなど他製品との連携も進んでいます。

UI・課金・APIの実務はAIツール一覧を参照してください。

特徴

テキスト忠実度

複雑なプロンプトの描写を反映しやすい、とされる

拡散ベース

拡散モデル系の画像生成

Googleエコシステム

クラウド・検索・マルチモーダル製品と接続

他モデルとの比較

モデル開発元試験での覚え方
ImagenGoogleText-to-Image・拡散
DALL·EOpenAI同上
Stable DiffusionStability AI等オープン・潜在拡散
GAN(手法)対抗学習。歴史的代表

よくある質問

ImagenとGeminiは同じ?

別製品ラインですが、マルチモーダル機能で近づくこともあります。試験では開発元と主用途を区別してください。

Imagen 3は試験に出る?

バージョン番号より「Googleの画像生成モデル」という位置づけが重要です。

オープンソース?

Stable Diffusionのようなオープンウェイト文化とは異なり、主にクラウドサービスとして提供されます。利用条件は公式を確認してください。