G検定 一問一答の問題です。解説付きで個別に学習できます。
マルコフ決定過程は、状態・行動・報酬・遷移確率を用いて逐次的な意思決定を表すモデルである。
正解: ○
マルコフ決定過程は強化学習の基礎的な定式化である。現在の状態と行動が次の状態や報酬に関係するという考え方を扱う。