問題
Q学習に関する説明として、最も不適切な選択肢を1つ選べ。
- A. 行動価値関数を学習する代表的な強化学習手法である
- B. 将来得られる報酬も考慮して価値を更新する
- C. 教師あり学習のように、各状態での正解行動ラベルが必ず必要である
- D. 価値関数に基づいて行動選択を改善できる
G検定 実践演習の問題です。解説付きで個別に学習できます。
Q学習に関する説明として、最も不適切な選択肢を1つ選べ。
正解はC。Q学習は、各状態での正解行動ラベルをあらかじめ与えられる教師あり学習ではなく、環境との相互作用から得られる報酬を通じて行動価値を学ぶ。A、B、DはいずれもQ学習の基本的な説明として適切である。強化学習では「正解ラベル」ではなく「報酬」を手がかりにする点を押さえる。