強化学習

G検定 一問一答の問題です。解説付きで個別に学習できます。

機械学習の概要 応用 ID: TF-043

問題

SARSAはオンポリシー手法として説明されることが多い。

正解: ○

解説

SARSAは、現在の方策に従って実際に選んだ次の行動を用いて更新するオンポリシー手法である。Q学習はオフポリシー手法として説明されることが多い。

演習モードで解く 前の問題 次の問題