問題
REINFORCEに関する説明として、最も不適切な選択肢を1つ選べ。
- A. 方策勾配法の代表的な手法として知られる
- B. 方策のパラメータを期待報酬が高くなるように更新する
- C. 強化学習の文脈で扱われる
- D. k-means法の別名であり、クラスタ中心を更新する教師なし学習手法である
G検定 実践演習の問題です。解説付きで個別に学習できます。
REINFORCEに関する説明として、最も不適切な選択肢を1つ選べ。
正解はD。REINFORCEは方策勾配法の代表的な手法であり、期待報酬が高くなるように方策パラメータを更新する強化学習手法である。k-means法はクラスタリングの教師なし学習手法であり、REINFORCEとは別物である。強化学習の価値ベース手法と方策ベース手法の区別も押さえておくとよい。