問題
Vision Transformerに関する説明として、最も適切な選択肢を1つ選べ。
- A. 画像をパッチに分割し、Transformerの仕組みを画像認識に適用するモデルである
- B. RNNだけで画像を逐次的に生成する音声モデルである
- C. 決定木を多数組み合わせた教師あり学習モデルである
- D. 個人情報を匿名加工情報に変換する制度である
G検定 実践演習の問題です。解説付きで個別に学習できます。
Vision Transformerに関する説明として、最も適切な選択肢を1つ選べ。
正解はA。Vision Transformerは、画像をパッチに分割し、それらを系列としてTransformerに入力することで画像認識を行うモデルである。CNNとは異なるアプローチで画像の関係性を扱う。BからDはVision Transformerの説明ではない。