過学習(Overfitting)と汎化(Generalization)は、G検定の機械学習分野で最も頻出する概念のひとつです。「訓練データではうまくいくのに本番で失敗する」——この問題の本質を理解することが試験対策の鍵になります。本記事では定義・原因・対策・バイアス・バリアンストレードオフ・出題ポイントを整理します。詳細は用語辞典「過学習」もあわせてご覧ください。
過学習とは
過学習は、モデルが訓練データのノイズや偶然のパターンまで学習してしまい、未知のデータでの性能が低下する現象です。
- 英語表記 Overfitting(オーバーフィッティング)
- 見分け方 訓練誤差は小さいが、検証誤差・テスト誤差が大きい
- 比喩 テストの「答え」だけ丸暗記して、少し変わった問題に対応できない状態
- 対となる概念 学習不足(Underfitting)——モデルが単純すぎて訓練データすら適合できない
汎化とは
汎化とは、モデルが訓練データにない未知のデータに対してもよい予測ができる能力のことです。機械学習の最終目標は、汎化性能の高いモデルを構築することです。
- 汎化性能 未知データでの予測精度。テストデータや検証データで評価
- 訓練・検証・テストの分離 汎化性能を正しく見積もるために、データを役割ごとに分ける
- 交差検証 データを分割して学習・検証を繰り返し、汎化性能を安定して評価
バイアス・バリアンス
G検定でバイアス・バリアンスとセットで問われることがあります。
| 概念 | 意味 | モデルの状態 |
|---|---|---|
| バイアス(Bias) | 予測の系統的なズレ | 高い→学習不足(Underfitting) |
| バリアンス(Variance) | 予測のばらつき | 高い→過学習(Overfitting) |
モデルを複雑にするとバイアスは下がるがバリアンスは上がり、単純にするとその逆——このトレードオフが機械学習の設計の核心です。
過学習の原因
- モデルが複雑すぎる パラメータ数が多い、層が深いなど
- 訓練データが少ない 少数のデータに過度に適合しやすい
- 訓練回数が多すぎる エポック数が多いと訓練データへの適合が進みすぎる
- ノイズの多いデータ ラベルミスや外れ値に引っ張られる
対策手法
試験での出題ポイント
| 試験 | 出題の傾向 | 演習 |
|---|---|---|
| G検定 | 定義、対策の選択、バイアス・バリアンス、学習曲線の読み取り | domain-10 · domain-07 |
| 生成AIパスポート | 第1章の機械学習基礎として触れられる程度 | 第1章 |
- 対策の選択 「過学習を防ぐには?」→正則化・早期終了・ドロップアウトなど文脈に合うもの
- 過学習 vs 学習不足 訓練誤差と検証誤差のパターンから状態を判断
- ディープラーニングでの対策 ドロップアウト・データ拡張・バッチ正規化