SFT(Supervised Fine-Tuning/教師ありファインチューニング)は、指示と模範回答のペアでLLMを追加学習し、指示追従を高める手法です。RLHFが人間の好みを報酬に変換するのに対し、SFTは「正解の書き方」をそのまま見せて覚えさせる——本記事は損失関数の細部より、LLM調整パイプラインの「教師ありの一段」に焦点を当てます。
試験で問われる見方
SFT単独の過去問は少ない一方、辞典の定義は「教師データで言語モデルを指示追従向けに微調整」です。試験ではファインチューニングの具体例(TF-0127、G-382)と、RLHFとの区別(HQ-0311)をセットで押さえます。
HQ-0311では、「事前学習済みモデルを特定用途のデータで追加学習」——これはファインチューニング/SFTの説明——をRLHFの定義とすり替えた誤答が選択肢にあります。SFTは教師ありFT、RLHFは好みに基づく強化学習——と分けて覚えることが得点源です。
SFTとは
大規模LLMは、まずインターネット規模のテキストで事前学習(Pre-training)され、「次の語を予測する」一般能力を獲得します。しかし実務では「質問に答えて」「要約して」「この形式で出力して」——といった指示への従順さが求められます。
SFTは、人間が書いた模範的な応答を教師信号として、モデルの重みを追加更新するファインチューニングの一種です。InstructGPTやChatGPT系モデルの開発で、RLHFの前段としてSFTを行う——という流れが広く知られています。
何を教師データにするか
SFTの教師データは、ざっくり「入力(指示)→ 正解の出力」のペアです。
| データの形 | 内容の例 | 学習で身につくこと |
|---|---|---|
| 指示応答 | 「この文章を3行で要約して」→ 模範要約 | タスク形式への追従 |
| 対話 | ユーザー発話 → アシスタントの望ましい返答 | 対話スタイル・丁寧さ |
| 社内QA | 社内マニュアルに関する質問 → 正しい回答 | ドメイン知識の反映 |
学習は、教師応答のトークンを正解として予測する教師あり学習です。RLHFのように「AとBどちらが良いか」の比較データが主役になるわけではありません——SFTは模範解答そのものを見せる段階です。
事前学習→SFT→RLHFの流れ
現代の対話型LLMでは、次の3段階がよく語られます。試験では順序と役割の整理が重要です。
- 事前学習 — 大規模コーパスで言語の一般能力を獲得(次トークン予測など)
- SFT — 指示・模範回答で基本的な追従を身につける
- RLHF — 人間の好みを報酬に、望ましい方向へ微調整
SFTだけでもかなり使えるモデルになりますが、模範データにない好みの細部(丁寧さ、安全性、冗長さの回避など)はRLHFやDPOなどで補う——という分担が典型です。SFT=パイプラインの最終段、とは答えません。
他の調整手法との対比
| 手法 | 学習信号 | 重み更新 | 試験向け |
|---|---|---|---|
| プロンプト | 推論時の指示・例示 | なし | 学習ではない |
| RAG | 検索で外部知識を渡す | なし(通常) | 知識の補完 |
| SFT | 正解応答(教師あり) | あり | 指示追従のFT |
| LoRA | SFT等と組み合わせ | 一部のみ | FTの効率版(TF-177) |
| RLHF | 人間の好み・報酬 | あり | 強化学習による調整(HQ-0311) |
ファインチューニングは広い総称、SFTはその中の教師あり型——という層の整理が試験で効きます。
実務上の注意
- データ品質 誤った模範回答を学習すると、その誤りが固定化される
- 偏りの増幅 特定文体・立場に偏った教師データは出力の偏りを強める
- プライバシー 教師データに個人情報や機密を含めない(HQ-0241)
- 限界 SFT後もハルシネーションは残りうる。評価は必須
SFTは出力の正確性や権利関係を自動保証しない——ファインチューニング全般に共通の注意です。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| SFT=RLHF | 教師ありFT vs 好みに基づく強化学習(HQ-0311) |
| SFT=事前学習 | 追加学習 vs ゼロからの一般学習(TF-0127) |
| SFT=ChatGPT | 学習手法 vs サービス |
| SFT=RAG | 重み更新 vs 検索で知識を渡す |
| SFT=プロンプト設計 | 学習時の調整 vs 推論時の指示 |
| 模範データが多ければRLHF不要 | SFTとRLHFは補完関係のことが多い |
よくある質問
SFTは何の略ですか?
Supervised Fine-Tuning(教師ありファインチューニング)の略です。ユーザー指示(プロンプト)と望ましい応答のペアなど、正解ラベル付きデータで事前学習済みモデルを追加学習し、指示に従う応答を出しやすくします。
SFTとRLHFは同じですか?
同じではありません。SFTは教師データの正解応答に合わせる教師あり学習によるファインチューニングです。RLHFは人間の好みを報酬に変換し、強化学習で出力を調整する手法です。LLMの調整パイプラインではSFTの後にRLHFを行うことが多いですが、役割と学習方式が異なります。
SFTは事前学習ですか?
いいえ。SFTは事前学習済みモデルを特定用途向けに追加学習するファインチューニングの一種です。大規模コーパスで一般能力を獲得する事前学習とは段階が異なります。