マルチモーダル

G検定 実践演習の問題です。解説付きで個別に学習できます。

ディープラーニングの応用例 標準 ID: G-392

問題

以下のマルチモーダルタスクの組み合わせとして、最も適切な選択肢を1つ選べ。(あ)画像に関する質問に答える(い)画像を説明する文章を生成する

  1. A. (あ)Visual Question Answering (い)Image Captioning
  2. B. (あ)Image Captioning (い)Visual Question Answering
  3. C. (あ)音声認識 (い)話者識別
  4. D. (あ)物体検出 (い)姿勢推定

解説(正解: A)

正解はA。Visual Question Answeringは、画像と質問文を入力として、画像内容に基づいて回答するタスクである。Image Captioningは画像の内容を説明する文章を生成するタスクである。どちらも画像と言語を組み合わせるマルチモーダルタスクである。

演習モードで解く 前の問題 次の問題