強化学習

G検定 一問一答の問題です。解説付きで個別に学習できます。

機械学習の概要 標準 ID: TF-041

問題

Q学習では、状態と行動の組み合わせに対する価値を更新しながら方策を改善していく。

正解: ○

解説

Q学習では、ある状態である行動を取る価値を表すQ値を更新する。価値ベースの強化学習手法として押さえる。

演習モードで解く 前の問題 次の問題