G-392 · マルチモーダル

G検定の実践演習模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

ディープラーニングの応用例標準 ID: G-392

問題

以下のマルチモーダルタスクの組み合わせとして、最も適切な選択肢を1つ選べ。（あ）画像に関する質問に答える（い）画像を説明する文章を生成する

A. （あ）Visual Question Answering　（い）Image Captioning
B. （あ）Image Captioning　（い）Visual Question Answering
C. （あ）音声認識　（い）話者識別
D. （あ）物体検出　（い）姿勢推定

解説（正解: A）

正解はA。Visual Question Answeringは、画像と質問文を入力として、画像内容に基づいて回答するタスクである。Image Captioningは画像の内容を説明する文章を生成するタスクである。どちらも画像と言語を組み合わせるマルチモーダルタスクである。

演習モードで解く前の問題次の問題

関連キーワード

G検定実践演習ディープラーニングの応用例用語辞典

同じトピックの問題