深層強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

ディープラーニングの応用例 応用 ID: G-367

問題

報酬成形に関する説明として、最も適切な選択肢を1つ選べ。

  1. A. 学習を進めやすくするため、目的に合う補助的な報酬を設計することである
  2. B. 報酬を常に0に固定して学習を止めることである
  3. C. 画像をセグメンテーションすることである
  4. D. 単語をワンホットベクトルにすることである

解説(正解: A)

正解はA。報酬成形は、エージェントが望ましい行動を学びやすくするために、最終報酬だけでなく補助的な報酬を設計する考え方である。ただし報酬設計を誤ると、意図しない行動を学習する可能性がある。BからDは報酬成形の説明ではない。

演習モードで解く 前の問題 次の問題