G-103 · 強化学習

G検定の実践演習模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

機械学習の概要応用 ID: G-103

問題

探索と活用のトレードオフに関する説明として、最も適切な選択肢を1つ選べ。

A. 未知の選択肢を試す探索と、既に良いと分かっている選択肢を使う活用のバランスを取る必要がある
B. 探索とは正解ラベルを暗記することで、活用とは特徴量を削除することである
C. 探索を一切しないことが、常に最も高い長期報酬を保証する
D. 活用を行うと、報酬を観測できなくなる

解説（正解: A）

正解はA。強化学習やバンディット問題では、新しい行動や選択肢を試して情報を得る探索と、現在よいと考えられる行動を選ぶ活用のバランスが重要である。探索が少なすぎるとより良い行動を見つけられない可能性があり、探索が多すぎると短期的な報酬を失うことがある。ε-greedy方策やUCB方策は、このトレードオフに関係する。

演習モードで解く前の問題次の問題

G-103 · 強化学習

問題

解説（正解: A）

関連キーワード

同じトピックの問題