モデル・技術

DPOとは?報酬モデルを飛ばす——好みデータで直接方策を整える

読み:ディーピーオー / 英:DPO(Direct Preference Optimization)

更新日: 読了目安:約6分

DPO(Direct Preference Optimization/直接選好最適化)は、「どちらの回答が良いか」という好みペアから、LLMの出力方針を直接学習する手法です。RLHFが報酬モデル+強化学習(PPOなど)の多段パイプラインだったのに対し、DPOはその中間工程を飛ばす近道——本記事は損失関数の導出ではなく、「何を省略したか」という整理に焦点を当てます。

好みデータという共通入力

RLHFもDPOも、出発点は似ています。同じプロンプトに対し、モデルが複数の回答を生成し、人がより良い方を選ぶ——この「chosen(選ばれた)/rejected(却下された)」のペアが好みデータです。

G-370が示すように、RLHFは「人間のフィードバックを報酬モデルなどに反映してモデルを調整する」考え方です。DPOも人間の好みに近づける目的は同じですが、反映の経路が異なります。

RLHFが踏む3段階

試験でよく出るRLHFの流れをおさらいします(HQ-0311)。

  1. SFT — 良い応答例でファインチューニング
  2. 報酬モデル — 好みペアから「回答の質」を数値化するモデルを学習
  3. 強化学習 — 報酬が高くなるよう方策を更新(PPOなど、G-366

この3段目が、実装・安定性の面でコストや難易度の源になりやすい——DPOはここに着目した後続手法の一つです。

DPOが省略するもの

DPOの設計思想はシンプルに言えば次のとおりです。

好みペアから、報酬モデルを明示的に学習せず、言語モデルの方策を直接最適化する。

工程RLHFDPO
好みデータ使う使う
報酬モデル別途学習明示的に省略
強化学習(PPO等)実施直接最適化で代替
目的望ましい出力へ調整同左(アライメントの手段)

試験では数式より「RLHFの簡略化・代替」として押さえるのが効率的です。製品がDPOかRLHFかは公開情報に依存するため、概念の層(目的・入力・工程の違い)で答える姿勢が重要です。

RLHF・CAI・FTとの違い

用語入力・手段位置づけ
DPO好みペア → 直接方策最適化アライメントの実装手法
RLHF好み → 報酬モデル → RL代表的多段パイプライン
Constitutional AI原則に基づく自己批判・修正人間FB依存を減らす別方向
ファインチューニング正解ラベル付きデータで追加学習好み最適化とは目的が異なることも
アライメント上位概念。DPOは手段の一つ

DPO=ChatGPT、DPO=RLHFの定義(TF-0166のようなすり替え)——いずれも試験の定番の罠です。

試験で押さえるポイント

  • 定義 — 好みデータから直接方策を最適化する手法
  • 対比 — RLHFは報酬モデル+強化学習の多段構成(G-370、HQ-0311)
  • — アライメントの実装の一つ。定義そのものではない
  • すり替え回避 — 対話サービス名・教師なし学習・データ拡張ではない

演習で確認する

G検定:G-370TF-149G-366(PPO)

生成AIパスポート:HQ-0311TF-0166TF-0124

すり替えに注意

誤った説明正しい理解
DPO=RLHF直接最適化 vs 報酬モデル+RL
DPO=アライメントの定義手段 vs 上位の考え方
DPO=Constitutional AI好みペア最適化 vs 原則ベース自己修正
DPO=ChatGPT学習手法 vs 対話サービス(TF-0166)
DPO=事前学習調整・安全化の事後工程

よくある質問

DPOは何をする手法ですか?

同じプロンプトに対し、人が選んだ回答(chosen)と選ばなかった回答(rejected)のペアから、言語モデルがより好ましい出力をするよう直接学習する手法です。RLHFのように報酬モデルを別途学習しPPOで方策更新する段階を簡略化したアプローチとして知られます。

DPOとRLHFは同じですか?

同じではありません。RLHFは人間の好みを報酬モデルに変換し、強化学習(PPOなど)で方策を更新する多段パイプラインです。DPOは好みペアから方策を直接最適化し、報酬モデル学習とRLの工程を省略する方向の手法です。いずれもアライメントの実装手段として語られます。

DPOはアライメントの定義ですか?

いいえ。アライメントは人間の意図や価値観に沿わせる上位の考え方です。DPOはその実現手法の一つであり、RLHFやConstitutional AIと並ぶ調整・安全化の手段として位置づけられます。