深層強化学習

G検定 実践演習の問題です。解説付きで個別に学習できます。

ディープラーニングの応用例 標準 ID: G-366

問題

以下の説明に対応する名称の組み合わせとして、最も適切な選択肢を1つ選べ。(あ)方策更新でよく使われる安定化手法(い)非同期に複数のエージェントで学習する手法

  1. A. (あ)PPO (い)A3C
  2. B. (あ)A3C (い)PPO
  3. C. (あ)BERT (い)ELMo
  4. D. (あ)YOLO (い)SSD

解説(正解: A)

正解はA。PPOは方策更新を安定させる工夫を持つ深層強化学習手法である。A3CはAsynchronous Advantage Actor-Criticの略で、複数のエージェントが非同期に学習する手法として知られる。Cは自然言語処理、Dは画像認識のモデルである。

演習モードで解く 前の問題 次の問題