強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

機械学習の概要 応用 ID: G-103

問題

探索と活用のトレードオフに関する説明として、最も適切な選択肢を1つ選べ。

  1. A. 未知の選択肢を試す探索と、既に良いと分かっている選択肢を使う活用のバランスを取る必要がある
  2. B. 探索とは正解ラベルを暗記することで、活用とは特徴量を削除することである
  3. C. 探索を一切しないことが、常に最も高い長期報酬を保証する
  4. D. 活用を行うと、報酬を観測できなくなる

解説(正解: A)

正解はA。強化学習やバンディット問題では、新しい行動や選択肢を試して情報を得る探索と、現在よいと考えられる行動を選ぶ活用のバランスが重要である。探索が少なすぎるとより良い行動を見つけられない可能性があり、探索が多すぎると短期的な報酬を失うことがある。ε-greedy方策やUCB方策は、このトレードオフに関係する。

演習モードで解く 前の問題 次の問題