強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

機械学習の概要 標準 ID: G-104

問題

以下の説明に対応する名称の組み合わせとして、最も適切な選択肢を1つ選べ。(あ)現在の方策に従って更新する手法の考え方(い)現在の方策とは異なる方策を仮定して更新できる手法の考え方

  1. A. (あ)オンポリシー (い)オフポリシー
  2. B. (あ)オフポリシー (い)オンポリシー
  3. C. (あ)教師あり (い)教師なし
  4. D. (あ)分類 (い)回帰

解説(正解: A)

正解はA。オンポリシーは、現在実際に使っている方策に従った経験をもとに更新する考え方である。オフポリシーは、行動を選ぶ方策と評価・改善したい方策が異なっていても学習できる考え方である。SARSAはオンポリシー、Q学習はオフポリシーとして説明されることが多い。

演習モードで解く 前の問題 次の問題