問題
UCB方策に関する説明として、最も不適切な選択肢を1つ選べ。
- A. 報酬の推定値だけでなく、不確実性も考慮して選択する方策である
- B. 試行回数が少ない選択肢を探索する余地を残す考え方である
- C. 探索と活用のバランスを取るために使われる
- D. すべての選択肢を、過去の結果に関係なく常に同じ確率で選び続ける方策である
G検定 実践演習の問題です。解説付きで個別に学習できます。
UCB方策に関する説明として、最も不適切な選択肢を1つ選べ。
正解はD。UCB方策は、現在の報酬推定値に加えて不確実性を考慮し、まだ十分に試していない選択肢にも探索の機会を与える方策である。探索と活用のバランスを取る方法として理解する。Dは単純なランダム選択に近く、UCB方策の説明として不適切である。