モデル・技術

LLaVAとは?画像を会話に乗せる——視覚トークンでLLMと話すVLM

読み:ラヴァ / 英:LLaVA(Large Language and Vision Assistant)

更新日: 読了目安:約6分

LLaVAは、画像を視覚トークンに変換してLLMへ渡すことで、「この写真に何が写っている?」「左の物体は?」といった対話形式の画像理解を実現するマルチモーダルモデル(VLM)です。CLIPが座標を揃えるのに対し、LLaVAは画像をチャットの文脈に載せる——本記事はアーキテクチャの細部より、「なぜLLMに画像を接続するのか」に焦点を当てます。

なぜLLMに画像を渡すか

テキストだけのLLMは文章に強いが、ピクセルを直接は読めない。一方、画像キャプションやVQA(視覚的質問応答)は、視覚認識と言語生成の両方が必要です(TF-167)。

LLaVAの発想はシンプルです。視覚エンコーダで画像をベクトル化し、それをLLMが理解できる視覚トークン列に変換してプロンプトに挿入する——テキストの続きに「画像の意味」が乗るイメージです。

LLaVAの流れ

  • 画像入力 — 写真・図表などを視覚エンコーダ(しばしばCLIP系のViT)へ
  • 投影 — 視覚特徴をLLMの埋め込み次元へ写像するコネクタ
  • プロンプト統合 — 視覚トークン+ユーザーの質問テキストをLLMへ
  • 生成 — LLMが自然言語で回答(説明・VQA・推論)

学習では視覚指示チューニング(画像付きの指示データでファインチューニング)が鍵——事前学習済みの視覚・言語の部品を、会話形式の画像タスクに合わせます。

得意なタスク

タスク入出力試験の接点
画像キャプション画像→説明文TF-167、G-390
VQA画像+質問→回答G-392
画像会話画像+多ターン対話マルチモーダルAI(G-389
テキスト画像生成テキスト→画像DALL·E等。LLaVAの主戦場ではない(G-394

LLaVAは画像を理解して言葉で答える方向——生成(Text-to-Image)とはモダリティの矢印が逆です。

CLIP・BLIPとの違い

モデル強み出力の形
CLIP画像―テキストの共通埋め込みベクトル類似度・Zero-shot分類(G-393G-395
BLIPキャプション・VQA向け事前学習言語出力あり。LLaVAの系譜に近い
LLaVALLMへの接続で対話的推論チャット形式の長い自然言語回答
Gemini商用マルチモーダルサービスモデル名・サービス名として別整理

CLIPは「座標を揃える」、LLaVAは「座標を会話に載せる」——同じマルチモーダルでも、埋め込み vs 生成で役割が分かれます。

試験で押さえるポイント

  • 定義 — 視覚エンコーダ+LLMのVLM(Large Language and Vision Assistant)
  • 入力 — 画像+テキスト(質問・指示)
  • 出力 — 自然言語での説明・VQA回答
  • 対比 — CLIP=埋め込み、DALL·E=画像生成、ChatGPT=サービス名

演習で確認する

G検定:G-393G-390G-392TF-167G-389

生成AIパスポート:TF-0108(Transformer・LLMの文脈)

すり替えに注意

誤った説明正しい理解
LLaVA=CLIP対話型VLM vs 埋め込み・Zero-shot
LLaVA=LLaMA視覚+言語モデル vs テキストLLMファミリー
LLaVA=画像生成画像理解・言語回答 vs Text-to-Image
LLaVA=CNNマルチモーダルモデル名 vs ネットワーク構造
LLaVA=RAG画像をモデルに入力 vs 外部文書を検索して渡す

よくある質問

LLaVAは何をするモデルですか?

画像とテキストの両方を入力として受け取り、画像の内容について質問に答えたり説明文を生成したりする視覚言語モデルです。視覚エンコーダで画像をベクトル化し、それを大規模言語モデルへ接続して会話形式で推論します。

LLaVAとCLIPは同じですか?

同じではありません。CLIPは画像とテキストを共通の埋め込み空間に載せ、類似度検索やZero-shot分類に強いモデルです。LLaVAは画像特徴を言語モデルに渡し、自然言語で長い回答を生成する対話型VLMとして位置づけられます。

LLaVAとChatGPTは同じですか?

同じではありません。LLaVAは画像入力を扱う視覚言語モデルの研究系名称であり、ChatGPTはOpenAIの対話サービスです。どちらも言語生成に関わりますが、モデル名・サービス名・開発元・入力モダリティの整理が異なります。