G検定 一問一答の問題です。解説付きで個別に学習できます。
Vision Transformerは、画像をパッチに分割し、Transformerの仕組みを画像認識に適用するモデルである。
正解: ○
Vision Transformerは画像をパッチ列として扱い、Transformerで処理する。CNNとは異なる画像認識アプローチとして重要である。