用語解説

過学習・汎化とは?G検定頻出概念をわかりやすく解説

過学習 · 汎化 · バイアス・バリアンス · 対策 · 出題ポイント

ノートで過学習と汎化の概念を整理して学習する様子
出典:Unsplash(Jan Kahánek)
更新日: 読了目安:約8分

過学習(Overfitting)汎化(Generalization)は、G検定の機械学習分野で最も頻出する概念のひとつです。「訓練データではうまくいくのに本番で失敗する」——この問題の本質を理解することが試験対策の鍵になります。本記事では定義・原因・対策・バイアス・バリアンストレードオフ・出題ポイントを整理します。詳細は用語辞典「過学習」もあわせてご覧ください。

過学習とは

過学習は、モデルが訓練データのノイズや偶然のパターンまで学習してしまい、未知のデータでの性能が低下する現象です。

  • 英語表記 Overfitting(オーバーフィッティング)
  • 見分け方 訓練誤差は小さいが、検証誤差・テスト誤差が大きい
  • 比喩 テストの「答え」だけ丸暗記して、少し変わった問題に対応できない状態
  • 対となる概念 学習不足(Underfitting)——モデルが単純すぎて訓練データすら適合できない

汎化とは

汎化とは、モデルが訓練データにない未知のデータに対してもよい予測ができる能力のことです。機械学習の最終目標は、汎化性能の高いモデルを構築することです。

  • 汎化性能 未知データでの予測精度。テストデータや検証データで評価
  • 訓練・検証・テストの分離 汎化性能を正しく見積もるために、データを役割ごとに分ける
  • 交差検証 データを分割して学習・検証を繰り返し、汎化性能を安定して評価

バイアス・バリアンス

G検定でバイアス・バリアンスとセットで問われることがあります。

概念 意味 モデルの状態
バイアス(Bias) 予測の系統的なズレ 高い→学習不足(Underfitting)
バリアンス(Variance) 予測のばらつき 高い→過学習(Overfitting)

モデルを複雑にするとバイアスは下がるがバリアンスは上がり、単純にするとその逆——このトレードオフが機械学習の設計の核心です。

過学習の原因

  • モデルが複雑すぎる パラメータ数が多い、層が深いなど
  • 訓練データが少ない 少数のデータに過度に適合しやすい
  • 訓練回数が多すぎる エポック数が多いと訓練データへの適合が進みすぎる
  • ノイズの多いデータ ラベルミスや外れ値に引っ張られる

対策手法

  • 正則化 L1・L2正則化でパラメータを抑制し、モデルを単純化
  • 早期終了 検証誤差が悪化し始めた時点で学習を打ち切る
  • ドロップアウト 学習時にニューロンをランダムに無効化(ディープラーニング)
  • データ拡張 画像の回転・反転などで訓練データを水増し
  • モデルの簡素化 層数・パラメータ数を減らす
  • データ量の増加 より多くの訓練データを集める

試験での出題ポイント

試験 出題の傾向 演習
G検定 定義、対策の選択、バイアス・バリアンス、学習曲線の読み取り domain-10 · domain-07
生成AIパスポート 第1章の機械学習基礎として触れられる程度 第1章
  • 対策の選択 「過学習を防ぐには?」→正則化・早期終了・ドロップアウトなど文脈に合うもの
  • 過学習 vs 学習不足 訓練誤差と検証誤差のパターンから状態を判断
  • ディープラーニングでの対策 ドロップアウト・データ拡張・バッチ正規化

よくある質問

過学習とは何ですか?

訓練データに過度に適合し、未知データでの性能が落ちる現象です。用語辞典で詳しく解説しています。

汎化とは何ですか?

未知のデータに対してもよい予測ができる能力のことです。機械学習の目標は汎化性能の高いモデルを作ることです。

過学習の対策は?

正則化、早期終了、ドロップアウト、データ拡張、モデルの簡素化などがあります。機械学習分野の解説も参照してください。

どの試験で出題されますか?

主にG検定の機械学習・ディープラーニング分野で頻出です。