G-370 · 深層強化学習

G検定の実践演習模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

ディープラーニングの応用例応用 ID: G-370

問題

RLHFに関する説明として、最も不適切な選択肢を1つ選べ。

A. 人間のフィードバックを報酬モデルなどに反映してモデルを調整する考え方である
B. 大規模言語モデルの応答を人間の好みに近づけるために使われることがある
C. 強化学習と人間評価を組み合わせる文脈で登場する
D. 画像の畳み込みフィルタサイズだけを表すCNN用語である

解説（正解: D）

正解はD。RLHFはReinforcement Learning from Human Feedbackの略で、人間のフィードバックを用いてモデルの出力を望ましい方向へ調整する考え方である。大規模言語モデルの調整でよく知られる。DはRLHFの説明ではない。

演習モードで解く前の問題次の問題

関連キーワード

G検定実践演習ディープラーニングの応用例用語辞典強化学習 RLHF モデル学習

同じトピックの問題