TF-0122 · ChatGPT

生成AIパスポートの一問一答模擬問題です。解説付きで個別に学習できます（公式の過去問ではありません）。

問題

RLHFは、人間のフィードバックを用いた強化学習により、AIの出力を望ましい方向へ調整する手法である。

正解: ○

○です。RLHFは、Reinforcement Learning from Human Feedbackの略で、人間のフィードバックを用いてモデルの出力を調整する考え方です。ChatGPTやInstructGPTの文脈で重要な用語です。

生成AIパスポート
一問一答
第2章
用語辞典
強化学習
RLHF
モデル
GPT
学習