問題
以下の説明に対応する名称の組み合わせとして、最も適切な選択肢を1つ選べ。(あ)現在の方策に従って更新する手法の考え方(い)現在の方策とは異なる方策を仮定して更新できる手法の考え方
- A. (あ)オンポリシー (い)オフポリシー
- B. (あ)オフポリシー (い)オンポリシー
- C. (あ)教師あり (い)教師なし
- D. (あ)分類 (い)回帰
G検定 実践演習の問題です。解説付きで個別に学習できます。
以下の説明に対応する名称の組み合わせとして、最も適切な選択肢を1つ選べ。(あ)現在の方策に従って更新する手法の考え方(い)現在の方策とは異なる方策を仮定して更新できる手法の考え方
正解はA。オンポリシーは、現在実際に使っている方策に従った経験をもとに更新する考え方である。オフポリシーは、行動を選ぶ方策と評価・改善したい方策が異なっていても学習できる考え方である。SARSAはオンポリシー、Q学習はオフポリシーとして説明されることが多い。