正則化と正規化は同じ？

違う。正則化は過学習抑制、正規化層は学習の安定化が主目的。

L1とL2正則化の違いは？

L1は絶対値和のペナルティでスパース化、L2は二乗和のペナルティで重みを全体的に小さくする。

ドロップアウトは正則化？

はい。学習時にユニットを無効化して過学習を抑える正則化手法の一つ。

正則化とは？Regularization・L1/L2・過学習対策

正則化（Regularization）は、過学習を抑え汎化性能を高めるために、モデルの複雑さや重みに制約を加える技法の総称です。本記事は数式の厳密な導出ではなく、試験で問われる「なぜ必要か」「L1とL2の違い」「ドロップアウト・早期終了との役割分担」「正規化層との混同」——対策の地図——に焦点を当てます。

試験で問われる見方

○：正則化は過学習を抑えて汎化性能を高める（TF-068、TF-437）。L1・L2・ドロップアウトが代表例。

○：過学習対策として正則化・データ拡張・早期終了・交差検証などを組み合わせて考える（G-008、G-112）。正則化単体が「魔法の銀弾」ではない。

○：正則化係数（λなど）は学習前に設定するハイパーパラメータ。モデル重みとは別（G-086）。

×：ドロップアウトの説明を「重みにペナルティを課する」だけで済ませる——これはL1/L2のイメージ（HQ-0133）。ドロップアウトはユニットの無効化が要点。

演習で確認する

G検定：TF-068、TF-437、G-299、G-037、ディープラーニングの概要

生成AIパスポート：HQ-0133

なぜ正則化が必要か

モデルが複雑すぎると、訓練データのノイズまで覚えてしまい、訓練誤差は下がるのに検証誤差が上がる——いわゆる過学習——に陥ります（G-088）。表現力を上げることと汎化することはトレードオフの関係にあります。

正則化は「訓練誤差だけを最小化する」のではなく、シンプルで安定した解を選ぶようモデルに働きかけます。データ量が少ない、特徴量が多い、ニューラルネットが深い、といった状況で特に効果が問われます。

正則化の考え方

代表的なイメージは、損失関数にペナルティ項を足すことです。

最適化する量＝予測誤差＋ λ ×（モデルの複雑さへの罰）

λ（ラムダ）は正則化係数で、大きいほど「複雑さへの罰」が強くなり、モデルは控えめな重みを選びやすくなります。小さすぎれば過学習、大きすぎれば未学習に近づくため、検証データで調整します。

ペナルティを損失に足さない手法——ドロップアウトや早期終了——も、広い意味では正則化の一族として試験に登場します。

L1とL2の違い

線形モデルやニューラルネットの重みに対するペナルティとして、L1とL2が頻出です。

種類	ペナルティの形	効き方	関連用語
L1正則化	重みの絶対値の和	不要な重みをゼロに近づける（スパース化）。特徴選択に近い効果	Lasso回帰
L2正則化	重みの二乗和	重みを全体的に小さく保つ。極端な値を抑える	リッジ回帰

試験では「L1＝スパース」「L2＝リッジ」の対応と、どちらも過学習抑制が目的である点を押さえます（G-037の（あ）（い）の並び問題など）。

代表手法一覧

正則化は一つの技法ではなく、過学習を抑える工夫の総称です。試験では次の対応が重要です。

手法	仕組み	覚え方
L1 / L2	損失に重みのペナルティを追加	「重みを小さく／ゼロに」
ドロップアウト	学習時にニューロンをランダム無効化	「ユニットを落とす」。推論時は通常オフ
早期終了	検証性能悪化で学習を打ち切る	「学習の長さを制御」
データ拡張	反転・CutMixなどで多様性を増やす	画像などで有効。正則化効果もある
モデル簡素化	層・パラメータ数を減らす	表現力と汎化のバランス

実務では複数を組み合わせることが多いです。例：CNNでデータ拡張＋ドロップアウト＋早期終了、線形モデルでL2正則化、など。

正則化係数とハイパーパラメータ

L1/L2の強さを決める λ は、勾配降下法で更新されるモデル重みとは別物です。学習率や木の深さと同様、ハイパーパラメータとして学習前（または検証セットを使った探索で）設定します（G-086）。

グリッドサーチやランダムサーチで λ を探索するのは、正則化の「強さ」と汎化性能のバランスを取るためです。訓練データだけで決めると過学習した設定を選びやすいため、検証データや交差検証がセットで問われます。

正規化層との違い

名称が似ているため、試験で混同されやすいのが正規化層（バッチ正規化・レイヤー正規化など）です。

用語	目的	典型例
正規化層	中間表現の分布を整え学習を安定化	バッチ正規化、レイヤー正規化
正則化	過学習を抑える制約・ペナルティ	L1/L2、ドロップアウト、早期終了

G-299の正解は「正規化層は分布を整える層、正則化は過学習抑制の考え方」という整理です。「正則化＝プーリング層の別名」などは明確な×です。

すり替えに注意

選択肢の主語と説明の対応がずれているパターンが頻出です。

誤った説明	正しい理解
ドロップアウト＝重みにペナルティ	ドロップアウト＝学習時のユニット無効化（HQ-0133）
正則化＝正規化層	目的が異なる（G-299）
正則化＝重みをすべて0に固定	制約・ペナルティであり、単純なゼロ固定ではない（G-282・G-306の誤答パターン）
交差検証だけで過学習は防げる	評価手法。対策は正則化等と併用（G-112）

よくある質問

正則化を強くしすぎると？

未学習（Underfitting）に近づき、訓練誤差も下がりにくくなります。検証性能の曲線を見ながら λ やドロップアウト率を調整します。

データ拡張は正則化？

広い意味では正則化効果があります。試験では L1/L2・ドロップアウト・早期終了と並べて覚え、過学習対策の選択肢として扱うのが安全です。

LLMのファインチューニングでも正則化する？

はい。Weight decay（L2に近い）、AdamWでの重み減衰、ドロップアウト、早期終了、LoRAなどパラメータを絞る手法も過学習抑制に使われます。

L1とL2は同時に使える？

Elastic Netのように併用する手法もあります。G検定では個別の定義と効果の違いが中心です。