問題
RLHFに関する説明として、最も不適切な選択肢を1つ選べ。
- A. 人間のフィードバックを報酬モデルなどに反映してモデルを調整する考え方である
- B. 大規模言語モデルの応答を人間の好みに近づけるために使われることがある
- C. 強化学習と人間評価を組み合わせる文脈で登場する
- D. 画像の畳み込みフィルタサイズだけを表すCNN用語である
G検定 実践演習の問題です。解説付きで個別に学習できます。
RLHFに関する説明として、最も不適切な選択肢を1つ選べ。
正解はD。RLHFはReinforcement Learning from Human Feedbackの略で、人間のフィードバックを用いてモデルの出力を望ましい方向へ調整する考え方である。大規模言語モデルの調整でよく知られる。DはRLHFの説明ではない。