GloVeとは？共起表から語を埋める——カウントの統計で分散表現を学ぶ

GloVe（Global Vectors）は、コーパス全体の共起統計——「どの語がどの語と一緒に出たか」——から単語の埋め込みベクトルを学ぶNLP手法です。word2vecが予測で学ぶのに対し、GloVeはカウントを全局で見る——本記事は行列分解の細部より、「予測派 vs 統計派」の分岐に焦点を当てます。

なぜ分散表現が要るか

ワンホットベクトルは語彙数次元で1箇所だけが1の疎な表現です。G-343が示すように、「犬」と「猫」のような意味的に近い語の距離は、ワンホットでは直接表しにくい。

分散表現は低次元の密なベクトルで、意味的な近さを幾何学的な距離として扱えます（TF-134）。GloVeはその分散表現を得る古典的手法の一つです。

共起という手がかり

GloVeの出発点は共起行列——大規模テキストで語 i と語 j がどれだけ同時に現れたか——です。

集計 — コーパス全体で共起回数をカウント
学習 — ベクトルの内積が共起の対数比に近づくよう最適化
得られるもの — 各語に1本の固定ベクトル（静的埋め込み）

「国王−男＋女≈女王」のような意味の算術がよく引用されます。試験では個別の例題より、共起統計から密ベクトルを学ぶという位置づけが要点です。

カウント派と予測派

手法	学習の出発点	試験向けの一言
GloVe	コーパス全体の共起統計	カウントベース（全局統計）
word2vec	周辺語予測（CBOW/スキップグラム）	予測ベース（G-336）
BoW / TF-IDF	文書内の出現回数	特徴量。語ベクトル学習とは別文脈（G-344）
fastText	部分語を含む予測	未知語に強み（TF-136）

G-335・TF-129はword2vec向けですが、どちらも単語の分散表現を学習するNLP手法という同じ棚にGloVeが並びます。物体検出モデルではありません（G-335、G-327）。

静的 vs 文脈依存

世代	代表	語ベクトルの性質
静的埋め込み	GloVe、word2vec	語ごとに1本のベクトル
文脈依存	ELMo、BERT	同じ語でも文脈で変わる
現代LLM	GPTなど	トークン埋め込み＋深層で文脈統合

GloVeはG-344の文脈で、MFCC（音声特徴）やBoWとは区別されるNLPの表現学習です。現場では歴史的な基礎として理解し、最新RAGの埋め込みは別モデル（sentence-transformers等）が使われることも——試験では世代の整理が中心です。

試験で押さえるポイント

定義 — 共起統計から単語の分散表現を学習
対比 — word2vec＝予測ベース、GloVe＝カウントベース
性質 — 静的埋め込み（文脈で変わらない）
すり替え回避 — 画像・音声・物体検出ではない

演習で確認する

G検定：G-343、G-335、G-344、G-336、TF-129、TF-134

すり替えに注意

誤った説明	正しい理解
GloVe＝word2vec	カウント vs 予測。目的は近い
GloVe＝ELMo	静的 vs 文脈依存
GloVe＝BERT	単語埋め込み手法 vs Transformer事前学習
GloVe＝物体検出	NLP vs 画像（G-335）
GloVe＝TF-IDF	語ベクトル学習 vs 文書特徴量（G-344）

よくある質問

GloVeは何をする手法ですか？

大規模テキストから単語の共起回数などの統計を集め、その情報をもとに各単語を低次元の密なベクトル（分散表現）として学習する手法です。意味的に近い語ほどベクトルが近くなることを目指します。

GloVeとword2vecは同じですか？

同じではありません。どちらも単語の分散表現を学習しますが、GloVeはコーパス全体の共起統計（カウントベース）を主に使い、word2vecは周辺語予測などのニューラル言語モデル的な学習（予測ベース）が中心です。目的は近いが学習の出発点が異なります。

GloVeとELMoは同じですか？

同じではありません。GloVeは語ごとに固定の分散表現（静的埋め込み）を得ます。ELMoは双方向LSTMから文脈に応じて変わる動的な埋め込みを出力します。文脈の扱い方が根本的に異なります。