強化学習とは？Reinforcement Learning・報酬と方策

強化学習（Reinforcement Learning／RL）は、環境に行動し得られる報酬を最大化する方策を、試行錯誤で学ぶ機械学習です。本記事はQ学習の数式ではなく、試験で問われる基本概念・教師ありとの違い・生成AIのRLHFとの関係に焦点を当てます。※AIエージェント（対話型ツール）とは別概念です。

試験で問われる見方

○：強化学習ではエージェントが環境に行動し、報酬をもとに方策を改善する（TF-038）。正解ラベルを直接与える教師あり学習とは異なる。

×：強化学習でも各入力に正解ラベルが必ず付与される（TF-356）。報酬信号が手がかり。

演習で確認する

G検定：TF-038〜TF-042、G-065、機械学習の要素技術

基本用語

用語	意味
エージェント	行動を選ぶ学習主体（RL文脈）
環境	エージェントの行動に応じて状態・報酬を返す
状態	環境の現在の状況
行動	エージェントが取れる選択
報酬	行動の良し悪しを示すスカラー信号
方策	状態から行動を選ぶルール

学習のループ

状態を観測
方策に従い行動を選択
環境から報酬と次状態を受け取る
長期的な報酬最大化へ方策・価値を更新

教師ありとの違い

教師ありは各入力に正解ラベルがあります。強化学習は行動の結果として遅れて報酬が返り、どの行動が良かったかを探索しながら学びます。ゲーム・ロボット制御・推薦の順序決定などに使われます。

生成AIとの接点

RLHF（人間のフィードバックから強化学習）は、LLMの出力品質を報酬信号で調整する手法として知られます。ただしLLM本体の事前学習は主に教師あり／自己教師ありです。

すり替えに注意

誤った説明	正しい理解
強化学習＝教師あり（正解ラベルあり）	報酬が手がかり（TF-356は×）
RLのエージェント＝AIエージェント	前者は学習理論の主体、後者はツール連携システム
強化学習＝クラスタリング	教師なしのグループ分けとは別（G-040）
LLMの事前学習＝強化学習	主に教師あり／自己教師あり。RLHFは別段階

よくある質問

強化学習のエージェント＝AIエージェント？

違います。RLのエージェントは学習理論上の主体、AIエージェントはツール連携でタスクを遂行する生成AIシステムを指すことが多いです。

報酬設計が難しいと言われる理由は？

報酬が目的とずれると望ましくない行動を学習します（報酬ハッキング）。実務では報酬設計が重要課題です。

Q学習とは？

行動価値関数Qを反復更新する代表的強化学習アルゴリズムです。G検定では基本概念の区別が中心です。