問題
以下の説明に対応する名称の組み合わせとして、最も適切な選択肢を1つ選べ。(あ)方策更新でよく使われる安定化手法(い)非同期に複数のエージェントで学習する手法
- A. (あ)PPO (い)A3C
- B. (あ)A3C (い)PPO
- C. (あ)BERT (い)ELMo
- D. (あ)YOLO (い)SSD
G検定 実践演習の問題です。解説付きで個別に学習できます。
以下の説明に対応する名称の組み合わせとして、最も適切な選択肢を1つ選べ。(あ)方策更新でよく使われる安定化手法(い)非同期に複数のエージェントで学習する手法
正解はA。PPOは方策更新を安定させる工夫を持つ深層強化学習手法である。A3CはAsynchronous Advantage Actor-Criticの略で、複数のエージェントが非同期に学習する手法として知られる。Cは自然言語処理、Dは画像認識のモデルである。