TF-149 · 深層強化学習

G検定の一問一答模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

問題

RLHFは、人間のフィードバックを用いてモデルの出力を望ましい方向に調整する考え方である。

正解: ○

RLHFはReinforcement Learning from Human Feedbackの略で、大規模言語モデルの調整などで知られる。人間の評価を報酬モデルに反映する。