過学習・汎化とは？G検定頻出概念をわかりやすく解説

Q: 過学習とは何ですか？

訓練データに過度に適合し、未知のデータ（テストデータ）での予測性能が落ちる現象です。訓練誤差は小さいが検証誤差が大きい状態です。

Q: 汎化とは何ですか？

訓練データだけでなく、未知のデータに対してもよい予測ができる能力のことです。機械学習の目標は汎化性能の高いモデルを作ることです。

Q: 過学習の対策は？

正則化、早期終了、ドロップアウト、データ拡張、モデルの簡素化、交差検証などが代表的です。試験では文脈に合う対策を選ぶ問題が出ます。

Q: どの試験で出題されますか？

主にG検定（機械学習・ディープラーニング分野）で頻出です。生成AIパスポートでも機械学習の基礎として触れられることがあります。

過学習（Overfitting）と汎化（Generalization）は、G検定の機械学習分野で最も頻出する概念のひとつです。「訓練データではうまくいくのに本番で失敗する」——この問題の本質を理解することが試験対策の鍵になります。本記事では定義・原因・対策・バイアス・バリアンストレードオフ・出題ポイントを整理します。詳細は用語辞典「過学習」もあわせてご覧ください。

過学習とは

過学習は、モデルが訓練データのノイズや偶然のパターンまで学習してしまい、未知のデータでの性能が低下する現象です。

英語表記 Overfitting（オーバーフィッティング）
見分け方 訓練誤差は小さいが、検証誤差・テスト誤差が大きい
比喩テストの「答え」だけ丸暗記して、少し変わった問題に対応できない状態
対となる概念 学習不足（Underfitting）——モデルが単純すぎて訓練データすら適合できない

汎化とは

汎化とは、モデルが訓練データにない未知のデータに対してもよい予測ができる能力のことです。機械学習の最終目標は、汎化性能の高いモデルを構築することです。

汎化性能 未知データでの予測精度。テストデータや検証データで評価
訓練・検証・テストの分離 汎化性能を正しく見積もるために、データを役割ごとに分ける
交差検証 データを分割して学習・検証を繰り返し、汎化性能を安定して評価

バイアス・バリアンス

G検定でバイアス・バリアンスとセットで問われることがあります。

概念	意味	モデルの状態
バイアス（Bias）	予測の系統的なズレ	高い→学習不足（Underfitting）
バリアンス（Variance）	予測のばらつき	高い→過学習（Overfitting）

モデルを複雑にするとバイアスは下がるがバリアンスは上がり、単純にするとその逆——このトレードオフが機械学習の設計の核心です。

過学習の原因

モデルが複雑すぎる パラメータ数が多い、層が深いなど
訓練データが少ない 少数のデータに過度に適合しやすい
訓練回数が多すぎる エポック数が多いと訓練データへの適合が進みすぎる
ノイズの多いデータ ラベルミスや外れ値に引っ張られる

対策手法

正則化 L1・L2正則化でパラメータを抑制し、モデルを単純化
早期終了 検証誤差が悪化し始めた時点で学習を打ち切る
ドロップアウト 学習時にニューロンをランダムに無効化（ディープラーニング）
データ拡張 画像の回転・反転などで訓練データを水増し
モデルの簡素化 層数・パラメータ数を減らす
データ量の増加 より多くの訓練データを集める

試験での出題ポイント

試験	出題の傾向	演習
G検定	定義、対策の選択、バイアス・バリアンス、学習曲線の読み取り	domain-10 · domain-07
生成AIパスポート	第1章の機械学習基礎として触れられる程度	第1章

対策の選択 「過学習を防ぐには？」→正則化・早期終了・ドロップアウトなど文脈に合うもの
過学習 vs 学習不足 訓練誤差と検証誤差のパターンから状態を判断
ディープラーニングでの対策 ドロップアウト・データ拡張・バッチ正規化

よくある質問

過学習とは何ですか？

訓練データに過度に適合し、未知データでの性能が落ちる現象です。用語辞典で詳しく解説しています。

汎化とは何ですか？

未知のデータに対してもよい予測ができる能力のことです。機械学習の目標は汎化性能の高いモデルを作ることです。

過学習の対策は？

正則化、早期終了、ドロップアウト、データ拡張、モデルの簡素化などがあります。機械学習分野の解説も参照してください。

どの試験で出題されますか？

主にG検定の機械学習・ディープラーニング分野で頻出です。