教師なし学習に正解ラベルは必要？

不要。データの構造やパターンをラベルなしで発見する。

教師なし学習とは？クラスタリング・次元削減をわかりやすく解説

教師なし学習（Unsupervised Learning）は、正解ラベルなしのデータから、構造やパターンを自動的に見つける機械学習です。本記事はアルゴリズムの網羅ではなく、試験で問われる教師あり・強化学習との対比・代表タスク・損失の考え方・自己教師ありとの違いに焦点を当てます。

試験で問われる見方

○：教師なし学習はラベルなしでパターンを発見。クラスタリング・次元削減が代表（G-068、G-097）。

○：生成AIパスポートでも「正解データを与えず、データの構造やパターンを見つける手法」が定番（HQ-0106、HQ-0126）。

×：教師なしでもラベルとの誤差を直接最小化するとは限らない（TF-354）。再構成誤差やクラスタ内のまとまりなど別基準。

×：教師なし＝教師ありの説明を入れ替えた選択肢（HQ-0126の誤答パターン）。

演習で確認する

G検定：G-068、G-097、TF-354、TF-353

生成AIパスポート：HQ-0106、HQ-0126

教師なし学習とは

入力データだけが与えられ、「正解 y」がありません。データの似たもの同士のまとまりや低次元の構造を探すのが典型です。

ラベル付けには人手コストがかかるため、大量の未ラベルデータから顧客セグメントや異常パターンを見つけるなど、実務でも重要な位置づけです。試験では「何が教師（正解）として与えられないか」を明確にすることが鍵です。

代表タスク

タスク	目的	例
クラスタリング	似たデータをグループ分け	k-means法、階層的クラスタリング
次元削減	特徴を圧縮・可視化	PCA、t-SNE
異常検知	通常と異なる点を検出	—
表現学習	有用な特徴量の獲得	オートエンコーダ
トピックモデル	文書の潜在トピック推定	LDA

「分類」は教師あり学習のタスクです。クラスタリングはラベルなしでグループを発見する点が異なります（G-061）。

3つの学習パラダイム

区分	教師（信号）	損失のイメージ	代表例
教師あり	正解ラベル	予測と正解の差	分類・回帰
教師なし	なし	クラスタ内距離・再構成誤差など	k-means、PCA
強化学習	報酬	累積報酬の最大化	Q学習、方策勾配

試験では3つを混同する選択肢が頻出です。特に「報酬を手がかりに学習」は強化学習（HQ-0106の誤答D）です。

損失・評価の考え方

教師ありでは「予測 ŷ と正解 y の差」を最小化します。教師なしでは目的関数の形が異なります。

クラスタリング — クラスタ内の距離を小さく、クラスタ間を離す
次元削減 — 情報を保ちながら次元を減らす（分散の最大化など）
オートエンコーダ — 入力を再構成する誤差（再構成誤差）を最小化

TF-354は「教師なしでもラベル誤差を最小化する」と言い切る誤答に注意してください。

すり替えに注意

誤った説明	正しい理解
教師なし＝入力と正解のペアで学習	教師ありの定義（HQ-0126）
教師なし＝報酬で行動を学習	強化学習の定義
クラスタリング＝分類	分類はラベルありの教師あり学習
LLMの事前学習は純粋な教師なし	次トークン予測は自己教師ありと呼ばれることが多い

よくある質問

LLMの事前学習は教師なし？

次トークン予測は正解トークンがあるため自己教師ありと呼ばれることが多いです。純粋な教師なしとは区別します。

クラスタ数はどう決める？

k-meansでは k を事前指定（TF-032）。エルボー法やシルエット係数などで探索することもあります。

教師なしの結果はどう使う？

顧客セグメントの発見、異常検知、特徴量の前処理など。発見したクラスタに後からラベルを付ける運用もあります。

半教師あり学習とは？

少量のラベル付きデータと大量の未ラベルデータを併用する手法です。G検定では3パラダイムの区別が中心です。