基礎・機械学習

教師なし学習とは?Unsupervised Learning・ラベルなしの探索

読み:きょうしなしがくしゅう / 英:Unsupervised Learning

更新日: 読了目安:約6分

教師なし学習(Unsupervised Learning)は、正解ラベルなしのデータから、構造やパターンを自動的に見つける機械学習です。本記事はアルゴリズムの網羅ではなく、試験で問われる教師ありとの対比・代表タスク・損失の考え方に焦点を当てます。

試験で問われる見方

○:教師なし学習はラベルなしでパターンを発見。クラスタリング・次元削減が代表(G-068)。

×:教師なしでもラベルとの誤差を直接最小化するとは限らない(TF-354)。再構成誤差やクラスタ内のまとまりなど別基準。

演習で確認する

G検定:G-068G-045TF-354TF-032(k-means)

教師なし学習とは

入力データだけが与えられ、「正解 y」がありません。データの似たもの同士のまとまり低次元の構造を探すのが典型です。ラベル付けコストが高い場面で有効です。

代表タスク

タスク目的
クラスタリンググループ分けk-means法
次元削減特徴を圧縮PCA
異常検知通常と異なる点を検出
表現学習特徴量の獲得オートエンコーダ

教師ありとの違い

区分ラベル損失のイメージ
教師ありあり予測と正解の差
教師なしなしクラスタ内距離・再構成誤差など
強化学習報酬累積報酬の最大化

よくある質問

LLMの事前学習は教師なし?

次トークン予測は正解トークンがあるため自己教師ありと呼ばれることが多いです。純粋な教師なしとは区別します。

クラスタ数はどう決める?

k-meansでは k を事前指定(TF-032)。エルボー法などで探索することもあります。