モデル・技術

RLHFとは?人間フィードバック強化学習・3段階パイプライン

読み:あーるえいちえふ / 英:RLHF(Reinforcement Learning from Human Feedback)

更新日: 読了目安:約7分

RLHF(Reinforcement Learning from Human Feedback/人間のフィードバックを用いた強化学習)は、人が「どちらの回答が良いか」を示した信号を使い、LLM出力を望ましい方向へ調整する学習手法です。本記事はアライメントの理念全体ではなく、InstructGPT以降よく語られる3段階の工程——何を・どの順で学習するか——に焦点を当てます。

試験で問われる見方

生成AIパスポート第2章では、定義文をそのまま覚えるのが近道です。「人間のフィードバックを用いた強化学習により、出力を望ましい方向へ調整する手法」——この文が正解になる問題が多数あります(HQ-0311HQ-0191HQ-0215)。

比較問題では、ChatGPTの説明をRLHFに当てはめるHQ-0262)、アライメントの定義をRLHFにする(HQ-0311のD)、ファインチューニングの定義をRLHFにする(HQ-0311のA)など、主語と説明のすり替えに注意してください。

G検定では、不適切な説明を選ぶ形式も出ます(G-370)。「対話サービス」「教師なしクラスタリング」「紙に書き写す作業」(TF-0166TF-0123)はいずれも×です。

演習で確認する

生成AIパスポート:HQ-0311HQ-0262(ChatGPT比較)TF-0166

G検定:G-370(不適切な説明)

関連:TF-0126(InstructGPTとアライメント)

RLHFとは

RLHFは、モデルが複数の候補回答を生成したとき、人間がより良い方を選ぶ(または順位づけする)データを集め、その好みを報酬信号として学習に反映させる手法です。略称のとおり強化学習の枠組みを使いますが、試験では「人間の評価で出力を良くする学習」と理解すれば十分なことが多いです。

ChatGPTのような対話モデルは、大規模な事前学習に加え、指示追従の調整やRLHFなどの工程を経て提供されることがあります(TF-0126)。ただしRLHF=ChatGPTではありません。

3段階パイプライン

教科書的な流れは、おおむね次の3段階に分けて説明されます(細部は研究・製品で異なります)。

  1. 教師ありファインチューニング(SFT)

    人間が書いた「良い応答」の例でモデルを追加学習し、指示に従う基礎を作る。ファインチューニングの一形態。

  2. 報酬モデル(Reward Model)の学習

    同じプロンプトに対する複数回答について、人がどちらが良いかを選んだデータから、回答の質を数値化するモデルを学習する。

  3. 強化学習による方針最適化

    報酬モデルのスコアが高くなるよう、言語モデルの出力方針を更新する(PPOなどの手法が使われることが多い)。有害・無関係な出力を減らし、好ましい文体・拒否を強化するイメージ。

このパイプライン全体が、アライメントを実現する代表的な実装の一つとして語られます。アライメントそのものではなく、手段である点を押さえてください。

似た用語との違い

用語 一言で RLHFとの関係
RLHF 人間の好みで出力を調整する学習手法
アライメント 意図・価値観に沿わせる考え方 RLHFは実装の一つ
ファインチューニング 事前学習後の追加学習全般 SFTはFTの一部。RLHFは好み最適化に特化
LoRA 少パラメータで効率適応 目的はドメイン適応など。安全調整とは別文脈も
ChatGPT 対話型AIサービス 調整工程にRLHFが使われうる製品

限界と誤解

  • 重みを変えないわけではない — 学習手法であり、手作業の転記ではない(TF-0166)
  • 事実の正確さは別問題 — ハルシネーションはRLHFだけでは解決しない
  • 人間の評価者の偏りが報酬に入り込む可能性がある
  • 最新情報の取得とは無関係 — 知識更新はRAGや再学習など別の話

よくある質問

RLHFとChatGPTは同じ?

いいえ。RLHFは手法、ChatGPTはサービスです(HQ-0262)。

RLHFとアライメントは同じ?

いいえ。アライメントは考え方、RLHFはその実現手法の一つです(HQ-0311のDは誤り)。

RLHFはファインチューニングと同じ?

包含関係ではありません。パイプラインの第1段階にSFT(FTの一種)が含まれることはありますが、RLHF全体を「追加学習全般」とは言い換えられません。

DPOなどRLHF以外の手法は試験に出る?

G検定・生成AIパスポートの範囲では、RLHFの定義と誤解の排除が中心です。詳細アルゴリズム名は深掘り不要なことが多いです。