G検定 一問一答の問題です。解説付きで個別に学習できます。
マルチモーダルAIは、画像、音声、テキストなど複数種類の情報を扱うAIを指す。
正解: ○
マルチモーダルAIは、単一形式のデータだけでなく、画像と文章、音声と映像など複数のモダリティを組み合わせて処理します。VQAや画像キャプション生成などが代表例です。