CutMixは、画像の矩形の一部を別画像のパッチで置き換え、ラベルも置換面積の割合で混合する画像認識向けのデータ拡張です。反転や回転が「1枚を変形する」古典的手法なのに対し、CutMixは「2枚を裁ち貼りして新しい学習例を作る」——本記事はハイパーパラメータの暗記ではなく、Mixup・Cutoutとの違いと試験での位置づけに焦点を当てます。
データ拡張の目的
データ拡張は、既存データに加工を加えて学習データの多様性を増やす手法です(G-266、TF-0213)。
G-286の誤答「データ拡張をすれば検証が不要」は×。拡張は有効でも、テスト・検証での性能確認は必要です。
裁ち貼りの直感
CutMixの手順イメージは次のとおりです。
- 2枚選ぶ — 学習セットから画像A・画像Bをサンプル
- 矩形を決める — 画像A上のランダムな矩形領域を切り出し
- パッチを貼る — その領域を画像Bの対応パッチで置換
- ラベル混合 — 置換面積の割合 λ で、ラベルも λ·y_A + (1−λ)·y_B
例えば「犬の写真」に「猫のパッチ」を貼ると、モデルは局所(猫)と文脈(犬の周囲)を同時に見る訓練例になります。物体の一部だけが写る現実的な場面に近づける効果が期待されます。
Mixup・Cutoutとの三兄弟
試験では近いデータ拡張を操作の違いで区別します。
| 手法 | 操作 | ラベル | 試験の接点 |
|---|---|---|---|
| Mixup | 画像全体を線形混合 | 割合で混合 | G-270、TF-111 |
| Cutout | 画像の一部を隠す(ゼロ埋め等) | 元ラベル維持 | G-272 |
| CutMix | 一部を別画像で置換 | 面積比で混合 | CSV定義・Mixup派生 |
| 古典 | 反転・回転・クロップ | 通常は維持 | G-266 |
G-272は「(あ)入力とラベルを混合=Mixup、(い)一部を隠す=Cutout」の対比です。CutMixはMixupの「混合」とCutoutの「局所操作」の中間——貼り付けで混合——と覚えると整理しやすいです。
ラベル混合の注意
データ拡張では、ラベルの意味が変わらない変換を選ぶことが重要です(TF-109)。
| 観点 | CutMixの扱い |
|---|---|
| 単一ラベル分類 | 2クラスのソフトラベル(面積比混合)になる |
| 誤変換の例 | 左右反転で「数字の6と9」が入れ替わるなど、意味が壊れる変換(TF-110は×) |
| CutMixの設計 | 混合ラベルを意図的に使い、決定境界を滑らかにする(Mixupと同系) |
Mixupが「画像全体をぼかして混ぜる」なら、CutMixは「はっきりしたパッチを貼る」——見た目は異なりますが、ラベルも一緒に混ぜる点は共通です。
試験で押さえるポイント
- 定義 — 画像の一部を別画像で置換するデータ拡張
- 目的 — 学習データの多様化・汎化・過学習抑制(G-266)
- 近縁 — Mixup(全体混合)、Cutout(一部隠す)
- すり替え回避 — 生成AI、正規化層、最適化手法ではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| CutMix=Mixup | 局所置換 vs 全体の線形混合(G-270) |
| CutMix=Cutout | 別画像で置換 vs 隠すだけ(G-272) |
| CutMix=生成AI | 学習データの加工 vs 新規コンテンツ生成(HQ-0356) |
| CutMix=バッチ正規化 | データ拡張 vs 分布の正規化(G-272のC) |
| 拡張=検証不要 | G-286のDは× |