モデル・技術

CLIPとは?画像と言葉を同じ座標に——対照学習の視覚言語モデル

読み:くりっぷ / 英:CLIP(Contrastive Language-Image Pre-training)

更新日: 読了目安:約6分

CLIPは、インターネット規模の画像―テキストのペアを使い、対応する組み合わせを近づけ・無関係な組み合わせを遠ざける対照学習で、両モダリティを同じ埋め込み空間に載せる視覚言語モデルです。BLIPがキャプションやVQAで「答える」方向に強いのに対し、CLIPは「同じ座標系で並べる」——本記事はアーキテクチャの細部ではなく、その座標の意味と試験での定義に焦点を当てます。

対照学習の直感

CLIPの学習データは「猫の写真」と「a photo of a cat」のような正しいペア、およびバッチ内の誤ったペア(別画像と別キャプション)です。

  1. エンコード — 画像エンコーダとテキストエンコーダが、それぞれ埋め込みベクトルを出力
  2. 近づける — 正しいペアの画像ベクトルとテキストベクトルは類似度を高く
  3. 遠ざける — 無関係なペアは類似度を低く
  4. 反復 — 大規模データで「言葉と見た目の対応」を統計的に学習

試験の定義文は次の骨格です(G-393TF-168)。

画像とテキストの対応関係を学習し、両者を共通の表現空間で扱えるようにするモデル。

共通空間の意味

「共通空間」とは、画像もテキストも同じ次元のベクトルとして表現され、コサイン類似度などで距離を測れる状態のことです。

操作CLIPの共通空間でできること
画像検索テキストクエリに近い画像を探す
キャプション検索画像に近い説明文を探す
類似度判定画像と文章が「言っていること」が合うかを数値化

埋め込みの思想——意味が近いほどベクトルも近い——を、画像と言語のあいだに広げたモデル、と整理すると試験向けです。

Zero-shot分類への橋

従来の画像分類は、学習時に「犬」「猫」など固定クラスのラベル画像が必要でした。CLIPでは、クラス名をテキストプロンプトに変換し、画像ベクトルとの類似度で判定できます。

  • — 「a photo of a dog」「a photo of a cat」をテキスト埋め込みにし、入力画像と最も近い方を選ぶ
  • Zero-shot — そのクラスの学習用画像例を渡さないで分類(G-395
  • 利点 — 新しいラベルをテキストを足すだけで試せる柔軟性

プロンプトのZero-shotとは文脈が異なりますが、「例を与えずに推論する」という発想は通じます。

応用の地図

CLIPは単独の製品名というより、技術のハブとして後続モデルに影響しました。

応用CLIPの役割試験の接点
Zero-shot分類テキストラベルでクラスを定義G-393、G-395
画像―テキスト検索共通空間での近傍探索マルチモーダルAI
生成モデルの条件付けプロンプト理解の土台(Text-to-Image系)G-394(DALL·Eは別モデル名)
視覚言語タスク理解の基盤。キャプション生成はBLIP寄りG-390、G-392

BLIP・生成モデルとの違い

モデル主な出力・目的CLIPとの違い
CLIP画像・テキストの埋め込みベクトル——
BLIPキャプション・VQAの言語出力対照埋め込み vs 文章生成・回答
DALL·Eテキスト→画像生成埋め込み・検索 vs 生成(G-394)
CNN画像の局所特徴抽出マルチモーダル対照学習 vs 単一モダリティの構造
LLMテキスト生成画像入力が前提ではない(マルチモーダルLLMは別世代)

試験で押さえるポイント

  • 定義 — 画像とテキストの対応を学習し、共通空間で扱う(G-393)
  • 応用Zero-shot画像分類、検索(TF-168)
  • 分野マルチモーダルAIの代表モデルの一つ
  • すり替え回避 — FFT(音声)、Q学習、匿名加工情報ではない(G-393の誤答)

演習で確認する

G検定:G-393TF-168G-395G-389

すり替えに注意

誤った説明正しい理解
CLIP=画像生成モデル埋め込み・対照学習。DALL·Eは別(G-394)
CLIP=BLIP共通空間 vs キャプション・VQA
CLIP=FFT・MFCC視覚言語 vs 音声信号処理(G-393のB)
CLIP=強化学習対照学習 vs Q学習(G-393のC)
CLIP=テキスト専用LLM画像とテキストの両方を扱うマルチモーダル

よくある質問

CLIPは何をするモデルですか?

画像とテキストの対応関係を学習し、両者を共通の表現空間で扱えるようにするモデルです。Zero-shot画像分類や画像―テキスト検索などに応用できます(G-393TF-168)。

CLIPとBLIPは同じですか?

いいえ。CLIPは画像とテキストを共通空間に埋め込む対照学習が中心です。BLIPは画像キャプション生成やVQAなど、言語出力を伴う視覚言語事前学習モデルとして位置づけられます。目的と得意タスクが異なります。

CLIPのZero-shot分類とは何ですか?

学習時にクラスごとの画像例を与えず、テキストで「a photo of a dog」のようにクラス名を記述し、画像埋め込みとの類似度で分類する手法です。CLIPの共通空間があれば、新しいラベルへ柔軟に拡張しやすい点が特徴です(G-395)。