モデル・技術

RMSpropとは?振れた勾配で歩幅を抑える——AdaGradの学習率ゼロ問題への応答

読み:アールエムエスプロップ / 英:RMSprop(Root Mean Square Propagation)

更新日: 読了目安:約6分

RMSpropは、勾配の二乗の移動平均で各パラメータの歩幅を調整する適応的最適化アルゴリズムです。AdaGradが「学習が進むほど学習率がゼロに近づく」問題を抱えたのに対し、RMSpropは古い勾配の影響を減衰させる——本記事は数式の暗記より、「なぜ勾配の振れ幅で学習率を割るのか」——更新設計の系譜——に焦点を当てます。

学習パイプラインでの位置

深層学習の1ステップは、順伝播→損失誤差逆伝播で勾配を求め、最適化手法で重みを更新します。

  • 勾配計算 — 各重みが損失をどれだけ下げられるか(TF-075
  • 更新方針勾配降下法RMSpropAdamなど
  • ハイパーパラメータ — ベース学習率などは人が設定(TF-052

RMSpropは勾配をどう使って重みを動かすかを決める層——損失関数そのものでも、正則化手法でもありません。

勾配の二乗を見る理由

ニューラルネットの重みは、層や役割によって勾配の大きさが大きく異なります。ある重みは勾配が常に大きく振れ、別の重みは小さく安定する——地形がパラメータごとに違う、というイメージです。

RMSpropは、各パラメータについて勾配の二乗の移動平均(Root Mean Squareに近い統計)を蓄え、その値で実効的な学習率を割り算でスケールします。

勾配の性質RMSpropの反応試験向け
大きく振れる二乗平均が大きい→歩幅を抑える暴走を防ぎやすい
小さく安定二乗平均が小さい→相対的に進みやすい更新の不均衡を緩和

G-145の定義——勾配の二乗の移動平均を利用して学習率を調整する——が試験の核心です。

AdaGradとの対比

RMSpropの前段に、AdaGradがあります。どちらも「パラメータごとに学習率を縮める」適応系ですが、蓄え方が異なります。

観点AdaGradRMSprop
勾配二乗の扱い過去を累積(減衰なし)移動平均(古い情報を減衰)
長期学習学習率が小さくなりすぎることがあるその問題を緩和(G-145の解説)
試験の整理適応系の祖先AdaGrad改良として説明されることが多い

試験では「RMSprop=AdaGradと全く同じ」とは答えません。学習率がゼロに近づく問題への応答——という差分がポイントです。

Adamへの系譜

Adamは、Momentum(一次モーメント)とRMSprop的な二次モーメントを組み合わせた手法として説明されます(TF-398)。

手法使う統計試験向け
SGD現在の勾配のみ全パラメータ同じ学習率(G-141
Momentum勾配の移動平均(一次)勢いを足す
RMSprop勾配二乗の移動平均歩幅をパラメータごとにスケール
Adam一次+二次モーメント定番の適応的手法(TF-079
AdamWAdam+重み減衰の分離LLM学習で広い

現場ではAdam・AdamWが主流でも、試験ではRMSprop単体の定義(G-145)と、Adamとの親子関係の両方が問われます。

試験で押さえるポイント

  • 定義 — 勾配の二乗の移動平均で学習率を調整する最適化手法(G-145)
  • 目的 — パラメータごとの勾配スケール差を吸収し、学習を安定化
  • 背景 — AdaGradの学習率が小さくなりすぎる問題を緩和
  • 系譜 — Adamの二次モーメントに近い。Momentumとは別の軸
  • — 最適化手法 ≠ 損失関数 ≠ データ拡張 ≠ 誤差逆伝播

演習で確認する

G検定:G-145TF-398TF-079TF-075TF-052TF-399(最適化のすり替え)

すり替えに注意

誤った説明正しい理解
RMSprop=Adam二次モーメント系 vs 一次+二次の統合
RMSprop=誤差逆伝播法更新手法 vs 勾配の計算(TF-075)
RMSprop=データ拡張最適化 vs 学習データの加工(TF-399のAdamすり替えと同型)
RMSprop=損失関数重みの更新 vs 誤差の定義
適応的=学習率が完全自動ベース学習率などハイパーパラメータは設定する(TF-052)
RMSprop=L2正則化歩幅調整 vs 重みペナルティ(G-167)

よくある質問

RMSpropは何をする最適化手法ですか?

各パラメータについて、過去の勾配の二乗の移動平均を計算し、その大きさに応じて実効的な学習率をスケールして重みを更新する手法です。勾配が大きく振れるパラメータの歩幅を抑え、学習を安定させやすい点が特徴です。

RMSpropとAdamは同じですか?

同じではありません。RMSpropは勾配の二乗の移動平均で歩幅を調整する適応的手法です。Adamはその考え(二次モーメント)に加え、勾配の一次モーメント(Momentumに近い)も組み合わせた手法です。AdamはRMSpropとMomentumの要素を統合した、と整理します。

RMSpropはデータ拡張手法ですか?

いいえ。RMSpropは学習時にパラメータを更新する最適化アルゴリズムです。正解ラベルを自動生成するデータ拡張手法ではありません。最適化手法とデータ前処理は別の層として整理します。