GloVe(Global Vectors)は、コーパス全体の共起統計——「どの語がどの語と一緒に出たか」——から単語の埋め込みベクトルを学ぶNLP手法です。word2vecが予測で学ぶのに対し、GloVeはカウントを全局で見る——本記事は行列分解の細部より、「予測派 vs 統計派」の分岐に焦点を当てます。
なぜ分散表現が要るか
ワンホットベクトルは語彙数次元で1箇所だけが1の疎な表現です。G-343が示すように、「犬」と「猫」のような意味的に近い語の距離は、ワンホットでは直接表しにくい。
分散表現は低次元の密なベクトルで、意味的な近さを幾何学的な距離として扱えます(TF-134)。GloVeはその分散表現を得る古典的手法の一つです。
共起という手がかり
GloVeの出発点は共起行列——大規模テキストで語 i と語 j がどれだけ同時に現れたか——です。
- 集計 — コーパス全体で共起回数をカウント
- 学習 — ベクトルの内積が共起の対数比に近づくよう最適化
- 得られるもの — 各語に1本の固定ベクトル(静的埋め込み)
「国王−男+女≈女王」のような意味の算術がよく引用されます。試験では個別の例題より、共起統計から密ベクトルを学ぶという位置づけが要点です。
カウント派と予測派
| 手法 | 学習の出発点 | 試験向けの一言 |
|---|---|---|
| GloVe | コーパス全体の共起統計 | カウントベース(全局統計) |
| word2vec | 周辺語予測(CBOW/スキップグラム) | 予測ベース(G-336) |
| BoW / TF-IDF | 文書内の出現回数 | 特徴量。語ベクトル学習とは別文脈(G-344) |
| fastText | 部分語を含む予測 | 未知語に強み(TF-136) |
G-335・TF-129はword2vec向けですが、どちらも単語の分散表現を学習するNLP手法という同じ棚にGloVeが並びます。物体検出モデルではありません(G-335、G-327)。
静的 vs 文脈依存
| 世代 | 代表 | 語ベクトルの性質 |
|---|---|---|
| 静的埋め込み | GloVe、word2vec | 語ごとに1本のベクトル |
| 文脈依存 | ELMo、BERT | 同じ語でも文脈で変わる |
| 現代LLM | GPTなど | トークン埋め込み+深層で文脈統合 |
GloVeはG-344の文脈で、MFCC(音声特徴)やBoWとは区別されるNLPの表現学習です。現場では歴史的な基礎として理解し、最新RAGの埋め込みは別モデル(sentence-transformers等)が使われることも——試験では世代の整理が中心です。
試験で押さえるポイント
- 定義 — 共起統計から単語の分散表現を学習
- 対比 — word2vec=予測ベース、GloVe=カウントベース
- 性質 — 静的埋め込み(文脈で変わらない)
- すり替え回避 — 画像・音声・物体検出ではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| GloVe=word2vec | カウント vs 予測。目的は近い |
| GloVe=ELMo | 静的 vs 文脈依存 |
| GloVe=BERT | 単語埋め込み手法 vs Transformer事前学習 |
| GloVe=物体検出 | NLP vs 画像(G-335) |
| GloVe=TF-IDF | 語ベクトル学習 vs 文書特徴量(G-344) |
よくある質問
GloVeは何をする手法ですか?
大規模テキストから単語の共起回数などの統計を集め、その情報をもとに各単語を低次元の密なベクトル(分散表現)として学習する手法です。意味的に近い語ほどベクトルが近くなることを目指します。
GloVeとword2vecは同じですか?
同じではありません。どちらも単語の分散表現を学習しますが、GloVeはコーパス全体の共起統計(カウントベース)を主に使い、word2vecは周辺語予測などのニューラル言語モデル的な学習(予測ベース)が中心です。目的は近いが学習の出発点が異なります。
GloVeとELMoは同じですか?
同じではありません。GloVeは語ごとに固定の分散表現(静的埋め込み)を得ます。ELMoは双方向LSTMから文脈に応じて変わる動的な埋め込みを出力します。文脈の扱い方が根本的に異なります。