LLaVAは、画像を視覚トークンに変換してLLMへ渡すことで、「この写真に何が写っている?」「左の物体は?」といった対話形式の画像理解を実現するマルチモーダルモデル(VLM)です。CLIPが座標を揃えるのに対し、LLaVAは画像をチャットの文脈に載せる——本記事はアーキテクチャの細部より、「なぜLLMに画像を接続するのか」に焦点を当てます。
なぜLLMに画像を渡すか
テキストだけのLLMは文章に強いが、ピクセルを直接は読めない。一方、画像キャプションやVQA(視覚的質問応答)は、視覚認識と言語生成の両方が必要です(TF-167)。
LLaVAの発想はシンプルです。視覚エンコーダで画像をベクトル化し、それをLLMが理解できる視覚トークン列に変換してプロンプトに挿入する——テキストの続きに「画像の意味」が乗るイメージです。
LLaVAの流れ
- 画像入力 — 写真・図表などを視覚エンコーダ(しばしばCLIP系のViT)へ
- 投影 — 視覚特徴をLLMの埋め込み次元へ写像するコネクタ
- プロンプト統合 — 視覚トークン+ユーザーの質問テキストをLLMへ
- 生成 — LLMが自然言語で回答(説明・VQA・推論)
学習では視覚指示チューニング(画像付きの指示データでファインチューニング)が鍵——事前学習済みの視覚・言語の部品を、会話形式の画像タスクに合わせます。
得意なタスク
| タスク | 入出力 | 試験の接点 |
|---|---|---|
| 画像キャプション | 画像→説明文 | TF-167、G-390 |
| VQA | 画像+質問→回答 | G-392 |
| 画像会話 | 画像+多ターン対話 | マルチモーダルAI(G-389) |
| テキスト画像生成 | テキスト→画像 | DALL·E等。LLaVAの主戦場ではない(G-394) |
LLaVAは画像を理解して言葉で答える方向——生成(Text-to-Image)とはモダリティの矢印が逆です。
CLIP・BLIPとの違い
| モデル | 強み | 出力の形 |
|---|---|---|
| CLIP | 画像―テキストの共通埋め込み | ベクトル類似度・Zero-shot分類(G-393、G-395) |
| BLIP | キャプション・VQA向け事前学習 | 言語出力あり。LLaVAの系譜に近い |
| LLaVA | LLMへの接続で対話的推論 | チャット形式の長い自然言語回答 |
| Gemini等 | 商用マルチモーダルサービス | モデル名・サービス名として別整理 |
CLIPは「座標を揃える」、LLaVAは「座標を会話に載せる」——同じマルチモーダルでも、埋め込み vs 生成で役割が分かれます。
試験で押さえるポイント
- 定義 — 視覚エンコーダ+LLMのVLM(Large Language and Vision Assistant)
- 入力 — 画像+テキスト(質問・指示)
- 出力 — 自然言語での説明・VQA回答
- 対比 — CLIP=埋め込み、DALL·E=画像生成、ChatGPT=サービス名
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| LLaVA=CLIP | 対話型VLM vs 埋め込み・Zero-shot |
| LLaVA=LLaMA | 視覚+言語モデル vs テキストLLMファミリー |
| LLaVA=画像生成 | 画像理解・言語回答 vs Text-to-Image |
| LLaVA=CNN | マルチモーダルモデル名 vs ネットワーク構造 |
| LLaVA=RAG | 画像をモデルに入力 vs 外部文書を検索して渡す |
よくある質問
LLaVAは何をするモデルですか?
画像とテキストの両方を入力として受け取り、画像の内容について質問に答えたり説明文を生成したりする視覚言語モデルです。視覚エンコーダで画像をベクトル化し、それを大規模言語モデルへ接続して会話形式で推論します。
LLaVAとCLIPは同じですか?
同じではありません。CLIPは画像とテキストを共通の埋め込み空間に載せ、類似度検索やZero-shot分類に強いモデルです。LLaVAは画像特徴を言語モデルに渡し、自然言語で長い回答を生成する対話型VLMとして位置づけられます。
LLaVAとChatGPTは同じですか?
同じではありません。LLaVAは画像入力を扱う視覚言語モデルの研究系名称であり、ChatGPTはOpenAIの対話サービスです。どちらも言語生成に関わりますが、モデル名・サービス名・開発元・入力モダリティの整理が異なります。