マルチモーダルAI(Multimodal AI)は、テキスト・画像・音声など複数種類の情報を扱えるAIを指します。本記事は個別製品の機能一覧ではなく、「モダリティの地図」——試験で他概念とすり替えられやすい定義——に焦点を当てます。
試験で問われる見方
○:マルチモーダルはテキスト、画像、音声など複数種類の情報を扱える性質(HQ-0219、HQ-0267)。
×:マルチモーダル=ファインチューニング、RLHF、アライメント、ハルシネーション、ChatGPTの定義——いずれも別概念(HQ-0219の誤答パターン、ハルシネーション記事)。
G検定では、画像を文章で説明するImage Captioningなど、認識と生成を組み合わせたタスクがマルチモーダル例として出ます(G-390)。
マルチモーダルとは
「モダリティ」とは情報の形式・チャネルのことです。テキストだけを扱うLLMは(狭い意味では)単一モダリティ、画像とテキストの両方を入力できるモデルはマルチモーダルです。
近年は1つのサービスでチャット+画像理解+画像生成を提供する製品が増え、日常語の「マルチモーダル」は「多機能な生成AI」に近い使われ方もします。試験では定義文の主語と説明の対応を確認してください。
モダリティの地図
| モダリティ | 例 | 関連用語 |
|---|---|---|
| テキスト | チャット、要約、翻訳 | LLM、GPT |
| 画像 | 写真の説明、図表の読取 | テキスト画像生成(出力側) |
| 音声 | 文字起こし、音声合成 | Whisper等(ツール記事参照) |
| 動画 | 映像理解・生成 | 動画生成サービス |
複数を同時に入力する(例:画像+質問文)のが典型的なマルチモーダル利用です。
代表タスク
- Image Captioning — 画像内容を自然言語で説明(G-390)
- Visual Question Answering — 画像について質問に答える
- Text-to-Image — テキストから画像生成(DALL·E、Stable Diffusion)
- マルチモーダルRAG — 文書・図表を横断検索(RAG)
アーキテクチャとしてはTransformerやAttentionを各モダリティに拡張する手法が主流です。
すり替えに注意
| 誤った説明 | 正しい整理 |
|---|---|
| マルチモーダル=ハルシネーション | 事実誤りの出力現象(ハルシネーション) |
| マルチモーダル=AGI | 複数形式を扱っても用途は限定されうる(AGI) |
| マルチモーダル=RLHF | 人間フィードバックによる調整手法(RLHF) |
| 画像生成だけ=マルチモーダル全体 | 生成は一部。理解・対話との組み合わせも含む |
業務での注意
マルチモーダル対応は便利ですが、リスクも増えます。
よくある質問
マルチモーダル=生成AI?
重なりはありますが同義ではありません。マルチモーダルは入力・出力の形式の話、生成AIは新規コンテンツを作る技術の総称です。
GPT-4oはマルチモーダル?
製品世代の詳細暗記より、試験定義(複数種類の情報を扱える性質)で整理してください。
単一モダリティは obsolete?
いいえ。用途によってテキスト専用モデルの方が適切な場合もあります。