問題
探索と活用のトレードオフに関する説明として、最も適切な選択肢を1つ選べ。
- A. 未知の選択肢を試す探索と、既に良いと分かっている選択肢を使う活用のバランスを取る必要がある
- B. 探索とは正解ラベルを暗記することで、活用とは特徴量を削除することである
- C. 探索を一切しないことが、常に最も高い長期報酬を保証する
- D. 活用を行うと、報酬を観測できなくなる
G検定 実践演習の問題です。解説付きで個別に学習できます。
探索と活用のトレードオフに関する説明として、最も適切な選択肢を1つ選べ。
正解はA。強化学習やバンディット問題では、新しい行動や選択肢を試して情報を得る探索と、現在よいと考えられる行動を選ぶ活用のバランスが重要である。探索が少なすぎるとより良い行動を見つけられない可能性があり、探索が多すぎると短期的な報酬を失うことがある。ε-greedy方策やUCB方策は、このトレードオフに関係する。