G-074 · 強化学習

G検定の実践演習模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

機械学習の概要標準 ID: G-074

問題

UCB方策に関する説明として、最も不適切な選択肢を1つ選べ。

A. 報酬の推定値だけでなく、不確実性も考慮して選択する方策である
B. 試行回数が少ない選択肢を探索する余地を残す考え方である
C. 探索と活用のバランスを取るために使われる
D. すべての選択肢を、過去の結果に関係なく常に同じ確率で選び続ける方策である

解説（正解: D）

正解はD。UCB方策は、現在の報酬推定値に加えて不確実性を考慮し、まだ十分に試していない選択肢にも探索の機会を与える方策である。探索と活用のバランスを取る方法として理解する。Dは単純なランダム選択に近く、UCB方策の説明として不適切である。

演習モードで解く前の問題次の問題

関連キーワード

G検定実践演習機械学習の概要用語辞典強化学習学習

同じトピックの問題