強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

機械学習の概要 標準 ID: G-074

問題

UCB方策に関する説明として、最も不適切な選択肢を1つ選べ。

  1. A. 報酬の推定値だけでなく、不確実性も考慮して選択する方策である
  2. B. 試行回数が少ない選択肢を探索する余地を残す考え方である
  3. C. 探索と活用のバランスを取るために使われる
  4. D. すべての選択肢を、過去の結果に関係なく常に同じ確率で選び続ける方策である

解説(正解: D)

正解はD。UCB方策は、現在の報酬推定値に加えて不確実性を考慮し、まだ十分に試していない選択肢にも探索の機会を与える方策である。探索と活用のバランスを取る方法として理解する。Dは単純なランダム選択に近く、UCB方策の説明として不適切である。

演習モードで解く 前の問題 次の問題