マルチモーダルはファインチューニングのこと？

いいえ。複数種類の情報を扱える性質を指す。ファインチューニングは追加学習の手法。

マルチモーダルAIとは？Multimodal AI・複数データ形式

マルチモーダルAI（Multimodal AI）は、テキスト・画像・音声など複数種類の情報を扱えるAIを指します。本記事は個別製品の機能一覧ではなく、「モダリティの地図」——試験で他概念とすり替えられやすい定義——に焦点を当てます。

○：マルチモーダルはテキスト、画像、音声など複数種類の情報を扱える性質（HQ-0219、HQ-0267）。

×：マルチモーダル＝ファインチューニング、RLHF、アライメント、ハルシネーション、ChatGPTの定義——いずれも別概念（HQ-0219の誤答パターン、ハルシネーション記事）。

G検定では、画像を文章で説明するImage Captioningなど、認識と生成を組み合わせたタスクがマルチモーダル例として出ます（G-390）。

演習で確認する

生成AIパスポート：HQ-0219、HQ-0267

「モダリティ」とは情報の形式・チャネルのことです。テキストだけを扱うLLMは（狭い意味では）単一モダリティ、画像とテキストの両方を入力できるモデルはマルチモーダルです。

近年は1つのサービスでチャット＋画像理解＋画像生成を提供する製品が増え、日常語の「マルチモーダル」は「多機能な生成AI」に近い使われ方もします。試験では定義文の主語と説明の対応を確認してください。

複数を同時に入力する（例：画像＋質問文）のが典型的なマルチモーダル利用です。

アーキテクチャとしてはTransformerやAttentionを各モダリティに拡張する手法が主流です。

マルチモーダル対応は便利ですが、リスクも増えます。

マルチモーダル＝生成AI？

重なりはありますが同義ではありません。マルチモーダルは入力・出力の形式の話、生成AIは新規コンテンツを作る技術の総称です。

GPT-4oはマルチモーダル？

製品世代の詳細暗記より、試験定義（複数種類の情報を扱える性質）で整理してください。

単一モダリティは obsolete？

いいえ。用途によってテキスト専用モデルの方が適切な場合もあります。