G検定 一問一答の問題です。解説付きで個別に学習できます。
αβ法は、探索結果を必ずランダムにするための強化学習手法である。
正解: ×
αβ法はMini-Max探索を効率化する枝刈り手法である。評価に影響しない枝を探索しないことで計算量を削減する。強化学習のランダム方策ではない。