G検定 一問一答の問題です。解説付きで個別に学習できます。
RLHFは、人間のフィードバックを用いてモデルの出力を望ましい方向に調整する考え方である。
正解: ○
RLHFはReinforcement Learning from Human Feedbackの略で、大規模言語モデルの調整などで知られる。人間の評価を報酬モデルに反映する。