問題
方策勾配法に関する説明として、最も適切な選択肢を1つ選べ。
- A. 行動を選ぶ方策を直接パラメータ化し、期待報酬が高くなるように更新する手法である
- B. クラスタ中心を勾配で直接更新する教師なし学習手法である
- C. 分類問題で正解率だけを最大化する決定木手法である
- D. 画像の畳み込みフィルタを固定して一切学習しない手法である
G検定 実践演習の問題です。解説付きで個別に学習できます。
方策勾配法に関する説明として、最も適切な選択肢を1つ選べ。
正解はA。方策勾配法は、行動を選択する方策そのものをパラメータ化し、期待報酬が高くなる方向へ更新する強化学習手法である。価値関数を学ぶ方法とは異なり、方策を直接改善する点が特徴である。REINFORCEやActor-Criticと関連して整理すると理解しやすい。