深層強化学習

G検定 一問一答の問題です。解説付きで個別に学習できます。

ディープラーニングの応用例 応用 ID: TF-149

問題

RLHFは、人間のフィードバックを用いてモデルの出力を望ましい方向に調整する考え方である。

正解: ○

解説

RLHFはReinforcement Learning from Human Feedbackの略で、大規模言語モデルの調整などで知られる。人間の評価を報酬モデルに反映する。

演習モードで解く 前の問題 次の問題