G-366 · 深層強化学習

G検定の実践演習模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

ディープラーニングの応用例標準 ID: G-366

問題

以下の説明に対応する名称の組み合わせとして、最も適切な選択肢を1つ選べ。（あ）方策更新でよく使われる安定化手法（い）非同期に複数のエージェントで学習する手法

A. （あ）PPO　（い）A3C
B. （あ）A3C　（い）PPO
C. （あ）BERT　（い）ELMo
D. （あ）YOLO　（い）SSD

解説（正解: A）

正解はA。PPOは方策更新を安定させる工夫を持つ深層強化学習手法である。A3CはAsynchronous Advantage Actor-Criticの略で、複数のエージェントが非同期に学習する手法として知られる。Cは自然言語処理、Dは画像認識のモデルである。

演習モードで解く前の問題次の問題

関連キーワード

G検定実践演習ディープラーニングの応用例用語辞典強化学習モデル学習

同じトピックの問題