G検定 一問一答の問題です。解説付きで個別に学習できます。
Q学習では、状態と行動の組み合わせに対する価値を更新しながら方策を改善していく。
正解: ○
Q学習では、ある状態である行動を取る価値を表すQ値を更新する。価値ベースの強化学習手法として押さえる。