強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

機械学習の概要 基本 ID: G-007

問題

以下の文章を読み、空欄に最もよく当てはまる選択肢を1つ選べ。 強化学習では、エージェントが環境に対して行動し、その結果として得られる( )をもとに、よりよい行動方針を学習する。

  1. A. 正解ラベル
  2. B. 報酬
  3. C. 主成分
  4. D. 特徴マップ

解説(正解: B)

正解はB。強化学習では、エージェントが環境の状態を観測し、行動を選択し、その結果として得られる報酬をもとに方策を改善する。正解ラベルを直接与える教師あり学習とは異なり、試行錯誤を通じて長期的な報酬が大きくなる行動を学ぶ。Aは教師あり学習、Cは次元削減、DはCNNなどで使われる特徴マップに関する語である。

演習モードで解く 前の問題 次の問題