モデル・技術

CutMixとは?画像を裁ち貼りして混ぜる——局所と文脈を同時に学ぶデータ拡張

読み:カットミックス / 英:CutMix

更新日: 読了目安:約6分

CutMixは、画像の矩形の一部を別画像のパッチで置き換え、ラベルも置換面積の割合で混合する画像認識向けのデータ拡張です。反転や回転が「1枚を変形する」古典的手法なのに対し、CutMixは「2枚を裁ち貼りして新しい学習例を作る」——本記事はハイパーパラメータの暗記ではなく、Mixup・Cutoutとの違いと試験での位置づけに焦点を当てます。

データ拡張の目的

データ拡張は、既存データに加工を加えて学習データの多様性を増やす手法です(G-266TF-0213)。

  • 狙い過学習抑制・汎化性能の向上
  • 手段 — 反転、回転、色調変更、CutMixなど
  • 位置づけ正則化の一族としても語られる

G-286の誤答「データ拡張をすれば検証が不要」は×。拡張は有効でも、テスト・検証での性能確認は必要です。

裁ち貼りの直感

CutMixの手順イメージは次のとおりです。

  1. 2枚選ぶ — 学習セットから画像A・画像Bをサンプル
  2. 矩形を決める — 画像A上のランダムな矩形領域を切り出し
  3. パッチを貼る — その領域を画像Bの対応パッチで置換
  4. ラベル混合 — 置換面積の割合 λ で、ラベルも λ·y_A + (1−λ)·y_B

例えば「犬の写真」に「猫のパッチ」を貼ると、モデルは局所(猫)と文脈(犬の周囲)を同時に見る訓練例になります。物体の一部だけが写る現実的な場面に近づける効果が期待されます。

Mixup・Cutoutとの三兄弟

試験では近いデータ拡張を操作の違いで区別します。

手法操作ラベル試験の接点
Mixup画像全体を線形混合割合で混合G-270TF-111
Cutout画像の一部を隠す(ゼロ埋め等)元ラベル維持G-272
CutMix一部を別画像で置換面積比で混合CSV定義・Mixup派生
古典反転・回転・クロップ通常は維持G-266

G-272は「(あ)入力とラベルを混合=Mixup、(い)一部を隠す=Cutout」の対比です。CutMixはMixupの「混合」とCutoutの「局所操作」の中間——貼り付けで混合——と覚えると整理しやすいです。

ラベル混合の注意

データ拡張では、ラベルの意味が変わらない変換を選ぶことが重要です(TF-109)。

観点CutMixの扱い
単一ラベル分類2クラスのソフトラベル(面積比混合)になる
誤変換の例左右反転で「数字の6と9」が入れ替わるなど、意味が壊れる変換(TF-110は×)
CutMixの設計混合ラベルを意図的に使い、決定境界を滑らかにする(Mixupと同系)

Mixupが「画像全体をぼかして混ぜる」なら、CutMixは「はっきりしたパッチを貼る」——見た目は異なりますが、ラベルも一緒に混ぜる点は共通です。

試験で押さえるポイント

  • 定義 — 画像の一部を別画像で置換するデータ拡張
  • 目的 — 学習データの多様化・汎化・過学習抑制(G-266)
  • 近縁 — Mixup(全体混合)、Cutout(一部隠す)
  • すり替え回避 — 生成AI、正規化層、最適化手法ではない

演習で確認する

G検定:G-266G-270G-272TF-111TF-109

生成AIパスポート:TF-0213HQ-0356

すり替えに注意

誤った説明正しい理解
CutMix=Mixup局所置換 vs 全体の線形混合(G-270)
CutMix=Cutout別画像で置換 vs 隠すだけ(G-272)
CutMix=生成AI学習データの加工 vs 新規コンテンツ生成(HQ-0356)
CutMix=バッチ正規化データ拡張 vs 分布の正規化(G-272のC)
拡張=検証不要G-286のDは×

よくある質問

CutMixは何をする手法ですか?

1枚の画像から切り取った矩形領域を、別の画像のパッチで置き換えるデータ拡張です。置換した面積の割合に応じて、2枚のラベルも混合します。画像認識の汎化性能向上を狙います。

CutMixとMixupは同じですか?

いいえ。Mixupは画像全体を線形に混合します(G-270TF-111)。CutMixは一部領域だけを別画像で置換し、局所の物体と背景文脈を同時に学ばせる発想です。

CutMixは生成AIですか?

いいえ。CutMixは既存の学習画像に加工を加えて多様性を増やすデータ拡張です。テキストや画像を新規生成する生成AIとは別概念です(HQ-0356)。