問題
エージェントと環境の関係として、最も適切な選択肢を1つ選べ。
- A. エージェントは環境の状態を観測し、行動を選び、その結果として報酬や次の状態を受け取る
- B. 環境は正解ラベルだけを保存し、エージェントは一切行動しない
- C. エージェントはクラスタ中心を固定し、環境は特徴量を削除する
- D. エージェントは画像の画素値だけを平均し、報酬は使わない
G検定 実践演習の問題です。解説付きで個別に学習できます。
エージェントと環境の関係として、最も適切な選択肢を1つ選べ。
正解はA。強化学習では、エージェントが環境から状態を観測し、行動を選択し、その結果として報酬や次の状態を受け取る。この相互作用を通じて、報酬が高くなる方策を学ぶ。BからDは、強化学習の基本構造を正しく表していない。