強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

機械学習の概要 標準 ID: G-102

問題

REINFORCEに関する説明として、最も不適切な選択肢を1つ選べ。

  1. A. 方策勾配法の代表的な手法として知られる
  2. B. 方策のパラメータを期待報酬が高くなるように更新する
  3. C. 強化学習の文脈で扱われる
  4. D. k-means法の別名であり、クラスタ中心を更新する教師なし学習手法である

解説(正解: D)

正解はD。REINFORCEは方策勾配法の代表的な手法であり、期待報酬が高くなるように方策パラメータを更新する強化学習手法である。k-means法はクラスタリングの教師なし学習手法であり、REINFORCEとは別物である。強化学習の価値ベース手法と方策ベース手法の区別も押さえておくとよい。

演習モードで解く 前の問題 次の問題