基礎・機械学習

強化学習とは?Reinforcement Learning・報酬最大化

読み:きょうかがくしゅう / 英:Reinforcement Learning(RL)

更新日: 読了目安:約7分

強化学習(Reinforcement Learning/RL)は、環境に行動し得られる報酬を最大化する方策を、試行錯誤で学ぶ機械学習です。本記事はQ学習の数式ではなく、試験で問われる基本概念・教師ありとの違い・生成AIのRLHFとの関係に焦点を当てます。※AIエージェント(対話型ツール)とは別概念です。

試験で問われる見方

○:強化学習ではエージェントが環境に行動し、報酬をもとに方策を改善する(TF-038)。正解ラベルを直接与える教師あり学習とは異なる。

深層強化学習はニューラルネットで価値関数や方策を近似する分野(TF-150周辺)。

演習で確認する

G検定:TF-038TF-042G-065機械学習の要素技術

基本用語

用語意味
エージェント行動を選ぶ学習主体(RL文脈)
環境エージェントの行動に応じて状態・報酬を返す
状態環境の現在の状況
行動エージェントが取れる選択
報酬行動の良し悪しを示すスカラー信号
方策状態から行動を選ぶルール

学習のループ

  1. 状態を観測
  2. 方策に従い行動を選択
  3. 環境から報酬と次状態を受け取る
  4. 長期的な報酬最大化へ方策・価値を更新

教師ありとの違い

教師ありは各入力に正解ラベルがあります。強化学習は行動の結果として遅れて報酬が返り、どの行動が良かったかを探索しながら学びます。ゲーム・ロボット制御・推薦の順序決定などに使われます。

生成AIとの接点

RLHF(人間のフィードバックから強化学習)は、LLMの出力品質を報酬信号で調整する手法として知られます。ただしLLM本体の事前学習は主に教師あり/自己教師ありです。

よくある質問

強化学習のエージェント=AIエージェント?

違います。RLのエージェントは学習理論上の主体、AIエージェントはツール連携でタスクを遂行する生成AIシステムを指すことが多いです。

報酬設計が難しいと言われる理由は?

報酬が目的とずれると望ましくない行動を学習します(報酬ハッキング)。実務では報酬設計が重要課題です。