問題
以下のマルチモーダルタスクの組み合わせとして、最も適切な選択肢を1つ選べ。(あ)画像に関する質問に答える(い)画像を説明する文章を生成する
- A. (あ)Visual Question Answering (い)Image Captioning
- B. (あ)Image Captioning (い)Visual Question Answering
- C. (あ)音声認識 (い)話者識別
- D. (あ)物体検出 (い)姿勢推定
G検定 実践演習の問題です。解説付きで個別に学習できます。
以下のマルチモーダルタスクの組み合わせとして、最も適切な選択肢を1つ選べ。(あ)画像に関する質問に答える(い)画像を説明する文章を生成する
正解はA。Visual Question Answeringは、画像と質問文を入力として、画像内容に基づいて回答するタスクである。Image Captioningは画像の内容を説明する文章を生成するタスクである。どちらも画像と言語を組み合わせるマルチモーダルタスクである。