LDA(Latent Dirichlet Allocation、潜在ディリクレ配分法)は、文書が複数の潜在トピックの混合から「書かれた」ように見える——と仮定する教師なしの確率モデルです。正解ラベルなしで「この記事は経済70%・技術30%」のような話題の割合を推定する——本記事はディリクレ分布の式より、「BoWの先に来たトピック発見」に焦点を当てます。
生成のたとえ話
LDAの直感は「文書がどう書かれるか」の逆問題です。
- 1 — 文書ごとに「トピックの配合比率」を引く(例:スポーツ0.6、政治0.4)
- 2 — 各単語を書くたび、配合に応じてトピックを選ぶ
- 3 — 選んだトピックが好む単語を引く(スポーツトピックなら「ゴール」「選手」など)
- 4 — 観測できるのは完成した文書だけ。LDAは逆算してトピック構造を推定
「潜在(Latent)」は直接は見えないトピックのこと。ディリクレ分布は配合比率のばらつきを表す事前分布——試験では分布の名前より、文書=トピックの混合という発想が要点です。
文書・単語・トピックの三層
| 対象 | LDAが推定するもの | 出力のイメージ |
|---|---|---|
| 文書 | トピック分布 | 「文書Aはトピック1が40%…」 |
| トピック | 単語分布 | 「トピック1は『市場』『株』が多い…」 |
| 単語 | どのトピックから来たか(推定) | 各語のトピック帰属の確率 |
入力はたいていBag of Wordsや語彙上のカウント(TF-127)——LDAはその上に載る話題構造のモデルです。
教師なしの位置づけ
LDAは正解ラベル(この文書は経済類)を使いません。教師なし学習のトピックモデルとして整理されます(教師なし学習記事の代表タスク表)。
G-061が問うように、分類は教師あり、クラスタリングはラベルなしでグループを発見——LDAも「発見」だが、連続的なトピック混合を仮定する点がk-means等と異なります(G-361)。
次元削減が教師なし文脈で扱われる(TF-0024)のと同様、LDAはラベルなしで構造を読む系譜の一員です。
BoW・クラスタリングとの違い
| 手法 | 何をするか | 試験向けの一言 |
|---|---|---|
| BoW | 語の出現をベクトル化 | 表現手法(G-332) |
| LDA | 潜在トピックの混合を推定 | 確率トピックモデル |
| k-means | 文書をk個のクラスタに分割 | ハードクラスタリング |
| BERT | 文脈付きの深層表現 | 教師あり事前学習+ファインチューニング |
| LLM | 大規模言語生成 | 別世代のNLP |
VAEの潜在空間(TF-0097)も「潜在」という語を共有しますが、LDAは文書・トピックの混合確率、VAEはニューラルネットの連続潜在表現——別系統です。
試験で押さえるポイント
- 定義 — 文書・単語・潜在トピックの確率モデル(教師なし)
- 出力 — 文書ごとのトピック分布、トピックごとの単語分布
- 用途 — 大量文書の話題構造の発見・要約の手がかり
- 対比 — BoW=表現、分類=教師あり、LLM=深層生成モデル
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| LDA=BoW | トピックモデル vs 語カウント表現 |
| LDA=教師あり分類 | ラベルなしのトピック推定 vs 正解ラベルで学習 |
| LDA=LLM | 古典的確率モデル vs 大規模ニューラルモデル |
| LDA=埋め込み | トピック・単語分布 vs 密なベクトル表現 |
| LDA=オートエンコーダ | トピック混合 vs 再構成の潜在圧縮(TF-104) |
よくある質問
LDAは何をする手法ですか?
多数の文書から、各文書がどの話題(トピック)をどれだけ含むか、各トピックがどの単語を好みやすいかを、正解ラベルなしで推定する教師なしの確率モデルです。文書分類のためのラベル付き学習ではなく、隠れた話題構造を発見する手法として整理されます。
LDAとBag of Wordsは同じですか?
同じではありません。Bag of Wordsは文書を単語の出現回数ベクトルに変換する表現手法です。LDAはBoWなどで得た文書・単語の統計を土台に、潜在トピックの混合として文書を説明する確率モデルです。表現と生成モデルは別の層です。
LDAとLLMは同じですか?
同じではありません。LDAは古典的な教師なしのトピックモデルであり、大規模なニューラル言語モデルではありません。LLMは深層学習で文脈を扱い文章を生成しますが、LDAは文書集合の話題構造を推定する統計モデルとして位置づけられます。