CLIPとは？画像と言葉を同じ座標に——対照学習の視覚言語モデル

CLIPは、インターネット規模の画像―テキストのペアを使い、対応する組み合わせを近づけ・無関係な組み合わせを遠ざける対照学習で、両モダリティを同じ埋め込み空間に載せる視覚言語モデルです。BLIPがキャプションやVQAで「答える」方向に強いのに対し、CLIPは「同じ座標系で並べる」——本記事はアーキテクチャの細部ではなく、その座標の意味と試験での定義に焦点を当てます。

対照学習の直感

CLIPの学習データは「猫の写真」と「a photo of a cat」のような正しいペア、およびバッチ内の誤ったペア（別画像と別キャプション）です。

エンコード — 画像エンコーダとテキストエンコーダが、それぞれ埋め込みベクトルを出力
近づける — 正しいペアの画像ベクトルとテキストベクトルは類似度を高く
遠ざける — 無関係なペアは類似度を低く
反復 — 大規模データで「言葉と見た目の対応」を統計的に学習

試験の定義文は次の骨格です（G-393、TF-168）。

画像とテキストの対応関係を学習し、両者を共通の表現空間で扱えるようにするモデル。

共通空間の意味

「共通空間」とは、画像もテキストも同じ次元のベクトルとして表現され、コサイン類似度などで距離を測れる状態のことです。

操作	CLIPの共通空間でできること
画像検索	テキストクエリに近い画像を探す
キャプション検索	画像に近い説明文を探す
類似度判定	画像と文章が「言っていること」が合うかを数値化

埋め込みの思想——意味が近いほどベクトルも近い——を、画像と言語のあいだに広げたモデル、と整理すると試験向けです。

Zero-shot分類への橋

従来の画像分類は、学習時に「犬」「猫」など固定クラスのラベル画像が必要でした。CLIPでは、クラス名をテキストプロンプトに変換し、画像ベクトルとの類似度で判定できます。

例 — 「a photo of a dog」「a photo of a cat」をテキスト埋め込みにし、入力画像と最も近い方を選ぶ
Zero-shot — そのクラスの学習用画像例を渡さないで分類（G-395）
利点 — 新しいラベルをテキストを足すだけで試せる柔軟性

プロンプトのZero-shotとは文脈が異なりますが、「例を与えずに推論する」という発想は通じます。

応用の地図

CLIPは単独の製品名というより、技術のハブとして後続モデルに影響しました。

応用	CLIPの役割	試験の接点
Zero-shot分類	テキストラベルでクラスを定義	G-393、G-395
画像―テキスト検索	共通空間での近傍探索	マルチモーダルAI
生成モデルの条件付け	プロンプト理解の土台（Text-to-Image系）	G-394（DALL·Eは別モデル名）
視覚言語タスク	理解の基盤。キャプション生成はBLIP寄り	G-390、G-392

BLIP・生成モデルとの違い

モデル	主な出力・目的	CLIPとの違い
CLIP	画像・テキストの埋め込みベクトル	——
BLIP	キャプション・VQAの言語出力	対照埋め込み vs 文章生成・回答
DALL·E	テキスト→画像生成	埋め込み・検索 vs 生成（G-394）
CNN	画像の局所特徴抽出	マルチモーダル対照学習 vs 単一モダリティの構造
LLM	テキスト生成	画像入力が前提ではない（マルチモーダルLLMは別世代）

試験で押さえるポイント

定義 — 画像とテキストの対応を学習し、共通空間で扱う（G-393）
応用 — Zero-shot画像分類、検索（TF-168）
分野 — マルチモーダルAIの代表モデルの一つ
すり替え回避 — FFT（音声）、Q学習、匿名加工情報ではない（G-393の誤答）

演習で確認する

G検定：G-393、TF-168、G-395、G-389

すり替えに注意

誤った説明	正しい理解
CLIP＝画像生成モデル	埋め込み・対照学習。DALL·Eは別（G-394）
CLIP＝BLIP	共通空間 vs キャプション・VQA
CLIP＝FFT・MFCC	視覚言語 vs 音声信号処理（G-393のB）
CLIP＝強化学習	対照学習 vs Q学習（G-393のC）
CLIP＝テキスト専用LLM	画像とテキストの両方を扱うマルチモーダル

よくある質問

CLIPは何をするモデルですか？

画像とテキストの対応関係を学習し、両者を共通の表現空間で扱えるようにするモデルです。Zero-shot画像分類や画像―テキスト検索などに応用できます（G-393、TF-168）。

CLIPとBLIPは同じですか？

いいえ。CLIPは画像とテキストを共通空間に埋め込む対照学習が中心です。BLIPは画像キャプション生成やVQAなど、言語出力を伴う視覚言語事前学習モデルとして位置づけられます。目的と得意タスクが異なります。

CLIPのZero-shot分類とは何ですか？

学習時にクラスごとの画像例を与えず、テキストで「a photo of a dog」のようにクラス名を記述し、画像埋め込みとの類似度で分類する手法です。CLIPの共通空間があれば、新しいラベルへ柔軟に拡張しやすい点が特徴です（G-395）。