画像認識

G検定 実践演習の問題です。解説付きで個別に学習できます。

ディープラーニングの応用例 応用 ID: G-328

問題

Vision Transformerに関する説明として、最も適切な選択肢を1つ選べ。

  1. A. 画像をパッチに分割し、Transformerの仕組みを画像認識に適用するモデルである
  2. B. RNNだけで画像を逐次的に生成する音声モデルである
  3. C. 決定木を多数組み合わせた教師あり学習モデルである
  4. D. 個人情報を匿名加工情報に変換する制度である

解説(正解: A)

正解はA。Vision Transformerは、画像をパッチに分割し、それらを系列としてTransformerに入力することで画像認識を行うモデルである。CNNとは異なるアプローチで画像の関係性を扱う。BからDはVision Transformerの説明ではない。

演習モードで解く 前の問題 次の問題