問題
RLHFは、人間のフィードバックを用いた強化学習により、AIの出力を望ましい方向へ調整する手法である。
正解: ○
生成AIパスポート 一問一答の問題です。解説付きで個別に学習できます。
RLHFは、人間のフィードバックを用いた強化学習により、AIの出力を望ましい方向へ調整する手法である。
正解: ○
○です。RLHFは、Reinforcement Learning from Human Feedbackの略で、人間のフィードバックを用いてモデルの出力を調整する考え方です。ChatGPTやInstructGPTの文脈で重要な用語です。