強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

機械学習の概要 標準 ID: G-075

問題

方策勾配法に関する説明として、最も適切な選択肢を1つ選べ。

  1. A. 行動を選ぶ方策を直接パラメータ化し、期待報酬が高くなるように更新する手法である
  2. B. クラスタ中心を勾配で直接更新する教師なし学習手法である
  3. C. 分類問題で正解率だけを最大化する決定木手法である
  4. D. 画像の畳み込みフィルタを固定して一切学習しない手法である

解説(正解: A)

正解はA。方策勾配法は、行動を選択する方策そのものをパラメータ化し、期待報酬が高くなる方向へ更新する強化学習手法である。価値関数を学ぶ方法とは異なり、方策を直接改善する点が特徴である。REINFORCEやActor-Criticと関連して整理すると理解しやすい。

演習モードで解く 前の問題 次の問題