RLHFとは？人間フィードバック強化学習・3段階パイプライン

Q: RLHFとChatGPTは同じ？

同じではありません。RLHFはモデル調整の学習手法、ChatGPTは対話型のテキスト生成AIサービスです。

Q: RLHFとアライメントは同じ？

同じではありません。アライメントは人間の意図に沿わせる考え方、RLHFはその実現手法の一つです。

RLHF（Reinforcement Learning from Human Feedback／人間のフィードバックを用いた強化学習）は、人が「どちらの回答が良いか」を示した信号を使い、LLMの出力を望ましい方向へ調整する学習手法です。本記事はアライメントの理念全体ではなく、InstructGPT以降よく語られる3段階の工程——何を・どの順で学習するか——に焦点を当てます。

試験で問われる見方

生成AIパスポート第2章では、定義文をそのまま覚えるのが近道です。「人間のフィードバックを用いた強化学習により、出力を望ましい方向へ調整する手法」——この文が正解になる問題が多数あります（HQ-0311、HQ-0191、HQ-0215）。

比較問題では、ChatGPTの説明をRLHFに当てはめる（HQ-0262）、アライメントの定義をRLHFにする（HQ-0311のD）、ファインチューニングの定義をRLHFにする（HQ-0311のA）など、主語と説明のすり替えに注意してください。

G検定では、不適切な説明を選ぶ形式も出ます（G-370）。「対話サービス」「教師なしクラスタリング」「紙に書き写す作業」（TF-0166、TF-0123）はいずれも×です。

演習で確認する

生成AIパスポート：HQ-0311、HQ-0262（ChatGPT比較）、TF-0166

G検定：G-370（不適切な説明）

関連：TF-0126（InstructGPTとアライメント）

RLHFとは

RLHFは、モデルが複数の候補回答を生成したとき、人間がより良い方を選ぶ（または順位づけする）データを集め、その好みを報酬信号として学習に反映させる手法です。略称のとおり強化学習の枠組みを使いますが、試験では「人間の評価で出力を良くする学習」と理解すれば十分なことが多いです。

ChatGPTのような対話モデルは、大規模な事前学習に加え、指示追従の調整やRLHFなどの工程を経て提供されることがあります（TF-0126）。ただしRLHF＝ChatGPTではありません。

3段階パイプライン

教科書的な流れは、おおむね次の3段階に分けて説明されます（細部は研究・製品で異なります）。

教師ありファインチューニング（SFT）
人間が書いた「良い応答」の例でモデルを追加学習し、指示に従う基礎を作る。ファインチューニングの一形態。
報酬モデル（Reward Model）の学習
同じプロンプトに対する複数回答について、人がどちらが良いかを選んだデータから、回答の質を数値化するモデルを学習する。
強化学習による方針最適化
報酬モデルのスコアが高くなるよう、言語モデルの出力方針を更新する（PPOなどの手法が使われることが多い）。有害・無関係な出力を減らし、好ましい文体・拒否を強化するイメージ。

このパイプライン全体が、アライメントを実現する代表的な実装の一つとして語られます。アライメントそのものではなく、手段である点を押さえてください。

似た用語との違い

用語	一言で	RLHFとの関係
RLHF	人間の好みで出力を調整する学習手法	—
アライメント	意図・価値観に沿わせる考え方	RLHFは実装の一つ
DPO	好みペアから方策を直接最適化	報酬モデル＋RLを省略する代替手法
ファインチューニング	事前学習後の追加学習全般	SFTはFTの一部。RLHFは好み最適化に特化
LoRA	少パラメータで効率適応	目的はドメイン適応など。安全調整とは別文脈も
ChatGPT	対話型AIサービス	調整工程にRLHFが使われうる製品

限界と誤解

重みを変えないわけではない — 学習手法であり、手作業の転記ではない（TF-0166）
事実の正確さは別問題 — ハルシネーションはRLHFだけでは解決しない
人間の評価者の偏りが報酬に入り込む可能性がある
最新情報の取得とは無関係 — 知識更新はRAGや再学習など別の話

すり替えに注意

誤った説明	正しい理解
RLHF＝ChatGPT	調整手法 vs サービス（HQ-0262）
RLHF＝アライメント	実装の一つ vs 考え方（HQ-0311）
RLHF＝手作業の転記	学習手法（TF-0166は×）
RLHFでハルシネーション消滅	好み調整≠事実の正確性

よくある質問

RLHFとChatGPTは同じ？

いいえ。RLHFは手法、ChatGPTはサービスです（HQ-0262）。

RLHFとアライメントは同じ？

いいえ。アライメントは考え方、RLHFはその実現手法の一つです（HQ-0311のDは誤り）。

RLHFはファインチューニングと同じ？

包含関係ではありません。パイプラインの第1段階にSFT（FTの一種）が含まれることはありますが、RLHF全体を「追加学習全般」とは言い換えられません。

DPOなどRLHF以外の手法は試験に出る？

G検定・生成AIパスポートの範囲では、RLHFの定義と誤解の排除が中心です。詳細アルゴリズム名は深掘り不要なことが多いです。