問題
ε-greedy方策に関する説明として、最も適切な選択肢を1つ選べ。
- A. 常に価値が最も低い行動だけを選択する方策である
- B. 一定確率でランダムな行動を選び、それ以外では価値が高い行動を選ぶ方策である
- C. 正解ラベルと予測ラベルの差だけで行動を決める方策である
- D. すべての行動を永久に同じ確率で選び続ける方策である
G検定 実践演習の問題です。解説付きで個別に学習できます。
ε-greedy方策に関する説明として、最も適切な選択肢を1つ選べ。
正解はB。ε-greedy方策は、一定確率εでランダムに探索し、それ以外では現在最も価値が高いと考えられる行動を選ぶ方策である。探索と活用のバランスを取るための基本的な方法である。Aは不合理な方策、Cは教師あり学習の誤差に近い説明、Dは価値推定を活用していない説明である。