G検定 一問一答の問題です。解説付きで個別に学習できます。
ε-greedy方策は、一定確率で探索し、それ以外では現在よいと考える行動を選ぶ方策である。
正解: ○
ε-greedy方策は、探索と活用のバランスを取る代表的な方法である。ランダム行動により未知の行動を試しつつ、既に価値が高い行動も選ぶ。