G-102 · 強化学習

G検定の実践演習模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

機械学習の概要標準 ID: G-102

問題

REINFORCEに関する説明として、最も不適切な選択肢を1つ選べ。

A. 方策勾配法の代表的な手法として知られる
B. 方策のパラメータを期待報酬が高くなるように更新する
C. 強化学習の文脈で扱われる
D. k-means法の別名であり、クラスタ中心を更新する教師なし学習手法である

解説（正解: D）

正解はD。REINFORCEは方策勾配法の代表的な手法であり、期待報酬が高くなるように方策パラメータを更新する強化学習手法である。k-means法はクラスタリングの教師なし学習手法であり、REINFORCEとは別物である。強化学習の価値ベース手法と方策ベース手法の区別も押さえておくとよい。

演習モードで解く前の問題次の問題

関連キーワード

G検定実践演習機械学習の概要用語辞典 k-means法教師なし学習強化学習学習

同じトピックの問題