G検定 一問一答の問題です。解説付きで個別に学習できます。
強化学習では、エージェントが環境と相互作用し、報酬を手がかりに行動方策を学ぶ。
正解: ○
強化学習では、状態、行動、報酬を通じて、長期的な報酬が大きくなる行動を学習します。ゲーム、制御、ロボットなどに応用されます。