RLHF(Reinforcement Learning from Human Feedback/人間のフィードバックを用いた強化学習)は、人が「どちらの回答が良いか」を示した信号を使い、LLMの出力を望ましい方向へ調整する学習手法です。本記事はアライメントの理念全体ではなく、InstructGPT以降よく語られる3段階の工程——何を・どの順で学習するか——に焦点を当てます。
試験で問われる見方
生成AIパスポート第2章では、定義文をそのまま覚えるのが近道です。「人間のフィードバックを用いた強化学習により、出力を望ましい方向へ調整する手法」——この文が正解になる問題が多数あります(HQ-0311、HQ-0191、HQ-0215)。
比較問題では、ChatGPTの説明をRLHFに当てはめる(HQ-0262)、アライメントの定義をRLHFにする(HQ-0311のD)、ファインチューニングの定義をRLHFにする(HQ-0311のA)など、主語と説明のすり替えに注意してください。
G検定では、不適切な説明を選ぶ形式も出ます(G-370)。「対話サービス」「教師なしクラスタリング」「紙に書き写す作業」(TF-0166、TF-0123)はいずれも×です。
RLHFとは
RLHFは、モデルが複数の候補回答を生成したとき、人間がより良い方を選ぶ(または順位づけする)データを集め、その好みを報酬信号として学習に反映させる手法です。略称のとおり強化学習の枠組みを使いますが、試験では「人間の評価で出力を良くする学習」と理解すれば十分なことが多いです。
ChatGPTのような対話モデルは、大規模な事前学習に加え、指示追従の調整やRLHFなどの工程を経て提供されることがあります(TF-0126)。ただしRLHF=ChatGPTではありません。
3段階パイプライン
教科書的な流れは、おおむね次の3段階に分けて説明されます(細部は研究・製品で異なります)。
-
教師ありファインチューニング(SFT)
人間が書いた「良い応答」の例でモデルを追加学習し、指示に従う基礎を作る。ファインチューニングの一形態。
-
報酬モデル(Reward Model)の学習
同じプロンプトに対する複数回答について、人がどちらが良いかを選んだデータから、回答の質を数値化するモデルを学習する。
-
強化学習による方針最適化
報酬モデルのスコアが高くなるよう、言語モデルの出力方針を更新する(PPOなどの手法が使われることが多い)。有害・無関係な出力を減らし、好ましい文体・拒否を強化するイメージ。
このパイプライン全体が、アライメントを実現する代表的な実装の一つとして語られます。アライメントそのものではなく、手段である点を押さえてください。
似た用語との違い
| 用語 | 一言で | RLHFとの関係 |
|---|---|---|
| RLHF | 人間の好みで出力を調整する学習手法 | — |
| アライメント | 意図・価値観に沿わせる考え方 | RLHFは実装の一つ |
| ファインチューニング | 事前学習後の追加学習全般 | SFTはFTの一部。RLHFは好み最適化に特化 |
| LoRA | 少パラメータで効率適応 | 目的はドメイン適応など。安全調整とは別文脈も |
| ChatGPT | 対話型AIサービス | 調整工程にRLHFが使われうる製品 |