LLaVAとは？画像を会話に乗せる——視覚トークンでLLMと話すVLM

LLaVAは、画像を視覚トークンに変換してLLMへ渡すことで、「この写真に何が写っている？」「左の物体は？」といった対話形式の画像理解を実現するマルチモーダルモデル（VLM）です。CLIPが座標を揃えるのに対し、LLaVAは画像をチャットの文脈に載せる——本記事はアーキテクチャの細部より、「なぜLLMに画像を接続するのか」に焦点を当てます。

なぜLLMに画像を渡すか

テキストだけのLLMは文章に強いが、ピクセルを直接は読めない。一方、画像キャプションやVQA（視覚的質問応答）は、視覚認識と言語生成の両方が必要です（TF-167）。

LLaVAの発想はシンプルです。視覚エンコーダで画像をベクトル化し、それをLLMが理解できる視覚トークン列に変換してプロンプトに挿入する——テキストの続きに「画像の意味」が乗るイメージです。

LLaVAの流れ

画像入力 — 写真・図表などを視覚エンコーダ（しばしばCLIP系のViT）へ
投影 — 視覚特徴をLLMの埋め込み次元へ写像するコネクタ
プロンプト統合 — 視覚トークン＋ユーザーの質問テキストをLLMへ
生成 — LLMが自然言語で回答（説明・VQA・推論）

学習では視覚指示チューニング（画像付きの指示データでファインチューニング）が鍵——事前学習済みの視覚・言語の部品を、会話形式の画像タスクに合わせます。

得意なタスク

タスク	入出力	試験の接点
画像キャプション	画像→説明文	TF-167、G-390
VQA	画像＋質問→回答	G-392
画像会話	画像＋多ターン対話	マルチモーダルAI（G-389）
テキスト画像生成	テキスト→画像	DALL·E等。LLaVAの主戦場ではない（G-394）

LLaVAは画像を理解して言葉で答える方向——生成（Text-to-Image）とはモダリティの矢印が逆です。

CLIP・BLIPとの違い

モデル	強み	出力の形
CLIP	画像―テキストの共通埋め込み	ベクトル類似度・Zero-shot分類（G-393、G-395）
BLIP	キャプション・VQA向け事前学習	言語出力あり。LLaVAの系譜に近い
LLaVA	LLMへの接続で対話的推論	チャット形式の長い自然言語回答
Gemini等	商用マルチモーダルサービス	モデル名・サービス名として別整理

CLIPは「座標を揃える」、LLaVAは「座標を会話に載せる」——同じマルチモーダルでも、埋め込み vs 生成で役割が分かれます。

試験で押さえるポイント

定義 — 視覚エンコーダ＋LLMのVLM（Large Language and Vision Assistant）
入力 — 画像＋テキスト（質問・指示）
出力 — 自然言語での説明・VQA回答
対比 — CLIP＝埋め込み、DALL·E＝画像生成、ChatGPT＝サービス名

演習で確認する

G検定：G-393、G-390、G-392、TF-167、G-389

生成AIパスポート：TF-0108（Transformer・LLMの文脈）

すり替えに注意

誤った説明	正しい理解
LLaVA＝CLIP	対話型VLM vs 埋め込み・Zero-shot
LLaVA＝LLaMA	視覚＋言語モデル vs テキストLLMファミリー
LLaVA＝画像生成	画像理解・言語回答 vs Text-to-Image
LLaVA＝CNN	マルチモーダルモデル名 vs ネットワーク構造
LLaVA＝RAG	画像をモデルに入力 vs 外部文書を検索して渡す

よくある質問

LLaVAは何をするモデルですか？

画像とテキストの両方を入力として受け取り、画像の内容について質問に答えたり説明文を生成したりする視覚言語モデルです。視覚エンコーダで画像をベクトル化し、それを大規模言語モデルへ接続して会話形式で推論します。

LLaVAとCLIPは同じですか？

同じではありません。CLIPは画像とテキストを共通の埋め込み空間に載せ、類似度検索やZero-shot分類に強いモデルです。LLaVAは画像特徴を言語モデルに渡し、自然言語で長い回答を生成する対話型VLMとして位置づけられます。

LLaVAとChatGPTは同じですか？

同じではありません。LLaVAは画像入力を扱う視覚言語モデルの研究系名称であり、ChatGPTはOpenAIの対話サービスです。どちらも言語生成に関わりますが、モデル名・サービス名・開発元・入力モダリティの整理が異なります。