強化学習(Reinforcement Learning/RL)は、環境に行動し得られる報酬を最大化する方策を、試行錯誤で学ぶ機械学習です。本記事はQ学習の数式ではなく、試験で問われる基本概念・教師ありとの違い・生成AIのRLHFとの関係に焦点を当てます。※AIエージェント(対話型ツール)とは別概念です。
試験で問われる見方
○:強化学習ではエージェントが環境に行動し、報酬をもとに方策を改善する(TF-038)。正解ラベルを直接与える教師あり学習とは異なる。
深層強化学習はニューラルネットで価値関数や方策を近似する分野(TF-150周辺)。
基本用語
| 用語 | 意味 |
|---|---|
| エージェント | 行動を選ぶ学習主体(RL文脈) |
| 環境 | エージェントの行動に応じて状態・報酬を返す |
| 状態 | 環境の現在の状況 |
| 行動 | エージェントが取れる選択 |
| 報酬 | 行動の良し悪しを示すスカラー信号 |
| 方策 | 状態から行動を選ぶルール |
学習のループ
- 状態を観測
- 方策に従い行動を選択
- 環境から報酬と次状態を受け取る
- 長期的な報酬最大化へ方策・価値を更新
教師ありとの違い
教師ありは各入力に正解ラベルがあります。強化学習は行動の結果として遅れて報酬が返り、どの行動が良かったかを探索しながら学びます。ゲーム・ロボット制御・推薦の順序決定などに使われます。
生成AIとの接点
RLHF(人間のフィードバックから強化学習)は、LLMの出力品質を報酬信号で調整する手法として知られます。ただしLLM本体の事前学習は主に教師あり/自己教師ありです。
よくある質問
強化学習のエージェント=AIエージェント?
違います。RLのエージェントは学習理論上の主体、AIエージェントはツール連携でタスクを遂行する生成AIシステムを指すことが多いです。
報酬設計が難しいと言われる理由は?
報酬が目的とずれると望ましくない行動を学習します(報酬ハッキング)。実務では報酬設計が重要課題です。