MAE(Masked Autoencoder)は、画像パッチの大部分(約75%)を隠し、見えているわずかな手がかりから隠れた部分のピクセルを描き直す自己教師あり学習です。BEiTが「BERTの穴埋めを画像に移植」したのに対し、MAEは極端なマスク+非対称なエンコーダ/デコーダで計算を省きつつViTを鍛える——本記事はアーキテクチャの細部より、「なぜあえて大部分を隠すのか」に焦点を当てます。
マスク再構成という課題
自己教師あり学習は、人手ラベルなしにデータ自身から正解を作る枠組みです(G-384)。「一部を隠して予測させる」型は、言語でも画像でも共通です(TF-0161)。
- 分割 — 画像を固定サイズのパッチに区切る(ViTと同型、G-328)
- マスク — ランダムに大部分のパッチを隠す
- 再構成 — 見えているパッチの文脈から、隠れたパッチのピクセル値を復元
古典的オートエンコーダが「入力全体→潜在表現→全体復元」なのに対し、MAEは見えている一部だけでエンコードし、隠れた部分だけをデコード——課題の難易度と計算量のバランスを取った設計です。
非対称エンコーダ/デコーダ
MAEの効率の鍵は役割分担の非対称さです。
| 部品 | 入力 | 役割 |
|---|---|---|
| エンコーダ(重い) | 見えているパッチだけ | 高品質な視覚表現を学ぶ。事前学習後は下流タスクでも使う |
| デコーダ(軽い) | エンコーダ出力+マスク位置情報 | 隠れたパッチのピクセル再構成。事前学習専用で推論時は捨てる |
マスクされたパッチはエンコーダを通さない——だから隠す割合が高いほどエンコーダの計算が減る。これがBEiTよりシンプルなパイプラインで高速に学習できる理由の一つです。
なぜ75%も隠すか
直感に反して、MAEは高いマスク率で性能が伸びることが示されました。隠す割合が低いと「隣のパッチをコピーすれば済む」——簡単すぎる課題になり、表現学習が弱くなります。
- 低マスク率 — 局所コピーで解ける。文脈理解が浅い
- 高マスク率(〜75%) — 全体構造・意味を推論する必要がある。難しいが有益な表現が得やすい
- 計算面 — 見えるパッチが少ないのでエンコーダ負荷も下がる
「隠すほど学べる」——MAEの独自性は、この極端なマスク率と効率の両立にあります。
BEiT・BERTとの違い
| 観点 | BERT | BEiT | MAE |
|---|---|---|---|
| モダリティ | テキスト | 画像 | 画像 |
| マスク対象 | 語トークン | 画像パッチ | 画像パッチ(高率) |
| 予測目標 | 隠れた語 | 離散ビジュアルトークンID | ピクセル値を直接再構成 |
| 補助モデル | 不要 | トークナイザが必要 | トークナイザ不要でシンプル |
| 学習の型 | 自己教師あり | 自己教師あり | 自己教師あり |
BEiTが「BERTのレシピ移植」なら、MAEは「オートエンコーダの再構成をマスクで尖らせた」設計——同じマスク画像モデリングでも、何を予測するかで個性が分かれます。
事前学習の先
MAEの流れは基盤モデル思想の画像版です。
| 段階 | 内容 |
|---|---|
| 1. 事前学習 | 大量のラベルなし画像でマスク再構成。エンコーダが視覚表現を獲得 |
| 2. ファインチューニング | 少量ラベルで画像分類等に適応(ファインチューニング) |
| 3. 位置づけ | ViTの事前学習レシピ。ViT=アーキテクチャ、MAE=学習手法 |
デコーダは事前学習の「教師役」——本番の分類タスクではエンコーダ(+分類ヘッド)だけが使われます。LLMの事前学習(次トークン予測)と同じく、大規模データで表現を作り、下流へ転移する流れです(TF-0162は自己教師ありの誤解を否定)。
試験で押さえるポイント
- 定義 — 画像パッチをマスクして再構成する自己教師あり学習(Masked Autoencoder)
- 特徴 — 高マスク率、非対称エンコーダ/デコーダ、ピクセル直接復元
- 対比 — BEiT=離散トークン予測、BERT=テキストMLM、MAE=画像ピクセル再構成
- 位置づけ — ViT向け事前学習手法。生成AIサービス名ではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| MAE=BEiT | ピクセル再構成 vs 離散トークン予測 |
| MAE=BERT | 画像の事前学習 vs テキストのMLM |
| MAE=GAN | マスク再構成の自己教師あり vs 生成器・識別器の対戦 |
| MAE=オートエンコーダそのもの | 高マスク率の変種。全体復元の古典版とは設計が異なる |
| MAE=LLM | 画像ViTの事前学習 vs 大規模言語モデル |
よくある質問
MAEは何をする手法ですか?
画像をパッチに分割し、大部分をマスクして隠したうえで、見えているパッチの文脈から隠れた部分のピクセルを再構成させる自己教師あり学習です。ラベルなし画像からVision Transformerの表現を学び、後段の画像分類などに転移します。
MAEとBEiTは同じですか?
同じではありません。どちらもマスク画像モデリングですが、BEiTは離散トークナイザで隠れたパッチのトークンIDを予測するのに対し、MAEは高いマスク率でエンコーダを軽量化し、デコーダがピクセル値を直接再構成します。設計の簡潔さと計算効率がMAEの特徴です。
MAEとオートエンコーダは同じですか?
完全に同じではありません。古典的オートエンコーダは入力全体をエンコードして復元します。MAEは入力の大部分をマスクし、見えている一部だけでエンコードして隠れた部分を復元する自己教師ありの変種です。潜在表現の学習という大枠は共通しますが、マスクと高マスク率がMAEの設計の核です。