CLIPは、インターネット規模の画像―テキストのペアを使い、対応する組み合わせを近づけ・無関係な組み合わせを遠ざける対照学習で、両モダリティを同じ埋め込み空間に載せる視覚言語モデルです。BLIPがキャプションやVQAで「答える」方向に強いのに対し、CLIPは「同じ座標系で並べる」——本記事はアーキテクチャの細部ではなく、その座標の意味と試験での定義に焦点を当てます。
対照学習の直感
CLIPの学習データは「猫の写真」と「a photo of a cat」のような正しいペア、およびバッチ内の誤ったペア(別画像と別キャプション)です。
- エンコード — 画像エンコーダとテキストエンコーダが、それぞれ埋め込みベクトルを出力
- 近づける — 正しいペアの画像ベクトルとテキストベクトルは類似度を高く
- 遠ざける — 無関係なペアは類似度を低く
- 反復 — 大規模データで「言葉と見た目の対応」を統計的に学習
画像とテキストの対応関係を学習し、両者を共通の表現空間で扱えるようにするモデル。
Zero-shot分類への橋
従来の画像分類は、学習時に「犬」「猫」など固定クラスのラベル画像が必要でした。CLIPでは、クラス名をテキストプロンプトに変換し、画像ベクトルとの類似度で判定できます。
- 例 — 「a photo of a dog」「a photo of a cat」をテキスト埋め込みにし、入力画像と最も近い方を選ぶ
- Zero-shot — そのクラスの学習用画像例を渡さないで分類(G-395)
- 利点 — 新しいラベルをテキストを足すだけで試せる柔軟性
プロンプトのZero-shotとは文脈が異なりますが、「例を与えずに推論する」という発想は通じます。
応用の地図
CLIPは単独の製品名というより、技術のハブとして後続モデルに影響しました。
| 応用 | CLIPの役割 | 試験の接点 |
|---|---|---|
| Zero-shot分類 | テキストラベルでクラスを定義 | G-393、G-395 |
| 画像―テキスト検索 | 共通空間での近傍探索 | マルチモーダルAI |
| 生成モデルの条件付け | プロンプト理解の土台(Text-to-Image系) | G-394(DALL·Eは別モデル名) |
| 視覚言語タスク | 理解の基盤。キャプション生成はBLIP寄り | G-390、G-392 |
BLIP・生成モデルとの違い
| モデル | 主な出力・目的 | CLIPとの違い |
|---|---|---|
| CLIP | 画像・テキストの埋め込みベクトル | —— |
| BLIP | キャプション・VQAの言語出力 | 対照埋め込み vs 文章生成・回答 |
| DALL·E | テキスト→画像生成 | 埋め込み・検索 vs 生成(G-394) |
| CNN | 画像の局所特徴抽出 | マルチモーダル対照学習 vs 単一モダリティの構造 |
| LLM | テキスト生成 | 画像入力が前提ではない(マルチモーダルLLMは別世代) |
試験で押さえるポイント
- 定義 — 画像とテキストの対応を学習し、共通空間で扱う(G-393)
- 応用 — Zero-shot画像分類、検索(TF-168)
- 分野 — マルチモーダルAIの代表モデルの一つ
- すり替え回避 — FFT(音声)、Q学習、匿名加工情報ではない(G-393の誤答)
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| CLIP=画像生成モデル | 埋め込み・対照学習。DALL·Eは別(G-394) |
| CLIP=BLIP | 共通空間 vs キャプション・VQA |
| CLIP=FFT・MFCC | 視覚言語 vs 音声信号処理(G-393のB) |
| CLIP=強化学習 | 対照学習 vs Q学習(G-393のC) |
| CLIP=テキスト専用LLM | 画像とテキストの両方を扱うマルチモーダル |
よくある質問
CLIPは何をするモデルですか?
画像とテキストの対応関係を学習し、両者を共通の表現空間で扱えるようにするモデルです。Zero-shot画像分類や画像―テキスト検索などに応用できます(G-393、TF-168)。
CLIPとBLIPは同じですか?
いいえ。CLIPは画像とテキストを共通空間に埋め込む対照学習が中心です。BLIPは画像キャプション生成やVQAなど、言語出力を伴う視覚言語事前学習モデルとして位置づけられます。目的と得意タスクが異なります。
CLIPのZero-shot分類とは何ですか?
学習時にクラスごとの画像例を与えず、テキストで「a photo of a dog」のようにクラス名を記述し、画像埋め込みとの類似度で分類する手法です。CLIPの共通空間があれば、新しいラベルへ柔軟に拡張しやすい点が特徴です(G-395)。