モデル・技術

マルチモーダルAIとは?Multimodal AI・複数データ形式

読み:まるちもーだるえーあい / 英:Multimodal AI

更新日: 読了目安:約7分

マルチモーダルAI(Multimodal AI)は、テキスト・画像・音声など複数種類の情報を扱えるAIを指します。本記事は個別製品の機能一覧ではなく、「モダリティの地図」——試験で他概念とすり替えられやすい定義——に焦点を当てます。

試験で問われる見方

○:マルチモーダルはテキスト、画像、音声など複数種類の情報を扱える性質HQ-0219HQ-0267)。

×:マルチモーダル=ファインチューニングRLHFアライメントハルシネーションChatGPTの定義——いずれも別概念(HQ-0219の誤答パターン、ハルシネーション記事)。

G検定では、画像を文章で説明するImage Captioningなど、認識と生成を組み合わせたタスクがマルチモーダル例として出ます(G-390)。

演習で確認する

生成AIパスポート:HQ-0219HQ-0267

G検定:G-390(Image Captioning)G-394(DALL·E)

マルチモーダルとは

「モダリティ」とは情報の形式・チャネルのことです。テキストだけを扱うLLMは(狭い意味では)単一モダリティ、画像とテキストの両方を入力できるモデルはマルチモーダルです。

近年は1つのサービスでチャット+画像理解+画像生成を提供する製品が増え、日常語の「マルチモーダル」は「多機能な生成AI」に近い使われ方もします。試験では定義文の主語と説明の対応を確認してください。

モダリティの地図

モダリティ関連用語
テキストチャット、要約、翻訳LLMGPT
画像写真の説明、図表の読取テキスト画像生成(出力側)
音声文字起こし、音声合成Whisper等(ツール記事参照)
動画映像理解・生成動画生成サービス

複数を同時に入力する(例:画像+質問文)のが典型的なマルチモーダル利用です。

代表タスク

  • Image Captioning — 画像内容を自然言語で説明(G-390)
  • Visual Question Answering — 画像について質問に答える
  • Text-to-Image — テキストから画像生成(DALL·EStable Diffusion
  • マルチモーダルRAG — 文書・図表を横断検索(RAG

アーキテクチャとしてはTransformerAttentionを各モダリティに拡張する手法が主流です。

すり替えに注意

誤った説明正しい整理
マルチモーダル=ハルシネーション事実誤りの出力現象(ハルシネーション
マルチモーダル=AGI複数形式を扱っても用途は限定されうる(AGI
マルチモーダル=RLHF人間フィードバックによる調整手法(RLHF
画像生成だけ=マルチモーダル全体生成は一部。理解・対話との組み合わせも含む

業務での注意

マルチモーダル対応は便利ですが、リスクも増えます。

  1. 画像・音声にも個人情報が含まれうる
  2. 図表の読取ミス・ハルシネーションはテキストと同様に確認が必要
  3. ディープフェイクなど悪用リスクとの接点
  4. 利用規約・出力物の著作権

よくある質問

マルチモーダル=生成AI?

重なりはありますが同義ではありません。マルチモーダルは入力・出力の形式の話、生成AIは新規コンテンツを作る技術の総称です。

GPT-4oはマルチモーダル?

製品世代の詳細暗記より、試験定義(複数種類の情報を扱える性質)で整理してください。

単一モダリティは obsolete?

いいえ。用途によってテキスト専用モデルの方が適切な場合もあります。