教師なし学習(Unsupervised Learning)は、正解ラベルなしのデータから、構造やパターンを自動的に見つける機械学習です。本記事はアルゴリズムの網羅ではなく、試験で問われる教師ありとの対比・代表タスク・損失の考え方に焦点を当てます。
試験で問われる見方
○:教師なし学習はラベルなしでパターンを発見。クラスタリング・次元削減が代表(G-068)。
×:教師なしでもラベルとの誤差を直接最小化するとは限らない(TF-354)。再構成誤差やクラスタ内のまとまりなど別基準。
演習で確認する
教師なし学習とは
入力データだけが与えられ、「正解 y」がありません。データの似たもの同士のまとまりや低次元の構造を探すのが典型です。ラベル付けコストが高い場面で有効です。
代表タスク
| タスク | 目的 | 例 |
|---|---|---|
| クラスタリング | グループ分け | k-means法 |
| 次元削減 | 特徴を圧縮 | PCA |
| 異常検知 | 通常と異なる点を検出 | — |
| 表現学習 | 特徴量の獲得 | オートエンコーダ |
教師ありとの違い
| 区分 | ラベル | 損失のイメージ |
|---|---|---|
| 教師あり | あり | 予測と正解の差 |
| 教師なし | なし | クラスタ内距離・再構成誤差など |
| 強化学習 | 報酬 | 累積報酬の最大化 |
よくある質問
LLMの事前学習は教師なし?
次トークン予測は正解トークンがあるため自己教師ありと呼ばれることが多いです。純粋な教師なしとは区別します。
クラスタ数はどう決める?
k-meansでは k を事前指定(TF-032)。エルボー法などで探索することもあります。