BEiT(BERT Pre-training of Image Transformers)は、マスク画像モデリング——画像の一部を隠して復元させる——ことでVision Transformer(ViT)をラベルなしデータから事前学習する手法です。BERTがテキストの「穴埋め」で文脈を学ぶのに対し、BEiTはパッチの穴埋めで視覚表現を学ぶ。本記事はトークナイザの細部ではなく、「NLPの事前学習レシピを画像に移植した」という設計思想に焦点を当てます。
マスク画像モデリングとは
自己教師あり学習は、人手のラベルなしに、データ自身から擬似的な正解を作って学習する枠組みです(G-384)。「人間が毎回口頭で教える」わけではありません(TF-0162は×)。
BEiTの自己教師あり課題はマスク画像モデリング(Masked Image Modeling)です。
- 分割 — 画像を固定サイズのパッチに区切る
- マスク — ランダムに一部パッチを隠す
- 予測 — 見えているパッチの文脈から、隠れた部分の表現を復元
テキストで「私は___に行った」の空欄を埋めるのと同型で、画像では「この領域に何があったか」を推測させます。
BEiTの学習の流れ
試験向けに、BEiTを次のパイプラインで整理します。
| 段階 | 内容 |
|---|---|
| 1. 事前学習 | 大量のラベルなし画像でマスク画像モデリング。汎用的な視覚表現を獲得 |
| 2. ファインチューニング | 少量のラベル付きデータで画像分類など下流タスクに適応(ファインチューニング) |
| 3. 位置づけ | 基盤モデル思想の画像版——事前学習→転移 |
人手アノテーションを全画像に付けるコストを避けつつ、大規模データで表現を学ぶ——という利点が自己教師ありの要点です。
BERTのMLMとの対応
| 観点 | BERT(テキスト) | BEiT(画像) |
|---|---|---|
| モデル | Transformerエンコーダ | Vision Transformer(ViT) |
| 入力単位 | トークン(語) | パッチ(画像の切れ端) |
| 事前学習課題 | MLM(マスク語予測) | マスク画像モデリング |
| 学習の型 | 自己教師あり | 自己教師あり |
| 下流タスク | 分類・QAなど | 画像分類・検出など |
BEiTはBERTそのものではなく、BERTの事前学習レシピを画像に移植した手法です。名前の BEiT は BERT と Image Transformers を掛け合わせた略称として覚えます。
ViTとの関係
Vision Transformer(ViT)は、画像をパッチに分割し、パッチ列をTransformerに入力して画像認識を行うモデルです(TF-123、G-328)。
画像をパッチに分割し、Transformerの仕組みを画像認識に適用するモデルである。
BEiTはViTをどう事前学習するかの手法名です。ViT=アーキテクチャ、BEiT=事前学習レシピ——と役割を分けると試験で混乱しにくくなります。
CNNが畳み込みで局所特徴を捉えるのに対し、ViT系はパッチ間のAttentionで関係を学びます。BEiTはそのViTに、ラベルなしデータで事前学習の土台を与える橋渡しです。
試験で押さえるポイント
- 定義 — マスク画像モデリングでViTを事前学習する手法
- 学習の型 — 自己教師あり学習(データから擬似ラベルを作る:G-384)
- BERTとの関係 — MLMの画像版という整理
- ViTとの関係 — ViT=モデル構造、BEiT=事前学習手法
- すり替え回避 — CNN、GAN、テキスト用BERTそのものではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| BEiT=テキスト用BERT | 画像ViTの事前学習手法。BERT流の設計 |
| BEiT=CNN | TransformerベースのViT系。畳み込み中心ではない |
| BEiT=ViTそのもの | ViT=アーキテクチャ、BEiT=事前学習レシピ |
| 自己教師あり=人間が口頭で教える | データから擬似課題を作る(TF-0162は×) |
| マスク画像モデリング=データ拡張 | 学習課題の設計。反転・クロップなどの拡張とは別 |
よくある質問
BEiTの事前学習は何をしますか?
画像をパッチに分割し、一部のパッチをマスク(隠す)して、残りの文脈から隠れた部分の表現を当てるマスク画像モデリングを行います。BERTのマスク語予測(MLM)を画像領域に移植した設計です。
BEiTとBERTの関係は?
BEiTは名前の通り、BERTの事前学習思想——データの一部を隠して予測させる自己教師あり学習——をVision Transformer(画像のTransformer)に適用した手法です。テキスト用BERTそのものではありません。
BEiTはCNNですか?
いいえ。BEiTはVision Transformerを事前学習する手法であり、画像をパッチ列としてTransformerで処理する系統です。畳み込みニューラルネットワーク(CNN)とはアーキテクチャが異なります。