生成AIパスポート 一問一答の問題です。解説付きで個別に学習できます。
強化学習は、行動の結果として得られる報酬を手がかりに、望ましい行動を学習する手法である。
正解: ○
○です。強化学習では、エージェントが環境に対して行動し、その結果として得られる報酬をもとに学習します。正解ラベルの有無ではなく、行動と報酬の関係で理解するのがポイントです。