モデル・技術

GloVeとは?共起表から語を埋める——カウントの統計で分散表現を学ぶ

読み:グローブ / 英:GloVe(Global Vectors for Word Representation)

更新日: 読了目安:約6分

GloVe(Global Vectors)は、コーパス全体の共起統計——「どの語がどの語と一緒に出たか」——から単語の埋め込みベクトルを学ぶNLP手法です。word2vecが予測で学ぶのに対し、GloVeはカウントを全局で見る——本記事は行列分解の細部より、「予測派 vs 統計派」の分岐に焦点を当てます。

なぜ分散表現が要るか

ワンホットベクトルは語彙数次元で1箇所だけが1の疎な表現です。G-343が示すように、「犬」と「猫」のような意味的に近い語の距離は、ワンホットでは直接表しにくい。

分散表現は低次元の密なベクトルで、意味的な近さを幾何学的な距離として扱えます(TF-134)。GloVeはその分散表現を得る古典的手法の一つです。

共起という手がかり

GloVeの出発点は共起行列——大規模テキストで語 i と語 j がどれだけ同時に現れたか——です。

  1. 集計 — コーパス全体で共起回数をカウント
  2. 学習 — ベクトルの内積が共起の対数比に近づくよう最適化
  3. 得られるもの — 各語に1本の固定ベクトル(静的埋め込み)

「国王−男+女≈女王」のような意味の算術がよく引用されます。試験では個別の例題より、共起統計から密ベクトルを学ぶという位置づけが要点です。

カウント派と予測派

手法学習の出発点試験向けの一言
GloVeコーパス全体の共起統計カウントベース(全局統計)
word2vec周辺語予測(CBOW/スキップグラム)予測ベース(G-336
BoW / TF-IDF文書内の出現回数特徴量。語ベクトル学習とは別文脈(G-344)
fastText部分語を含む予測未知語に強み(TF-136)

G-335TF-129はword2vec向けですが、どちらも単語の分散表現を学習するNLP手法という同じ棚にGloVeが並びます。物体検出モデルではありません(G-335、G-327)。

静的 vs 文脈依存

世代代表語ベクトルの性質
静的埋め込みGloVe、word2vec語ごとに1本のベクトル
文脈依存ELMoBERT同じ語でも文脈で変わる
現代LLMGPTなどトークン埋め込み+深層で文脈統合

GloVeはG-344の文脈で、MFCC(音声特徴)やBoWとは区別されるNLPの表現学習です。現場では歴史的な基礎として理解し、最新RAGの埋め込みは別モデル(sentence-transformers等)が使われることも——試験では世代の整理が中心です。

試験で押さえるポイント

  • 定義共起統計から単語の分散表現を学習
  • 対比 — word2vec=予測ベース、GloVe=カウントベース
  • 性質 — 静的埋め込み(文脈で変わらない)
  • すり替え回避 — 画像・音声・物体検出ではない

演習で確認する

G検定:G-343G-335G-344G-336TF-129TF-134

すり替えに注意

誤った説明正しい理解
GloVe=word2vecカウント vs 予測。目的は近い
GloVe=ELMo静的 vs 文脈依存
GloVe=BERT単語埋め込み手法 vs Transformer事前学習
GloVe=物体検出NLP vs 画像(G-335)
GloVe=TF-IDF語ベクトル学習 vs 文書特徴量(G-344)

よくある質問

GloVeは何をする手法ですか?

大規模テキストから単語の共起回数などの統計を集め、その情報をもとに各単語を低次元の密なベクトル(分散表現)として学習する手法です。意味的に近い語ほどベクトルが近くなることを目指します。

GloVeとword2vecは同じですか?

同じではありません。どちらも単語の分散表現を学習しますが、GloVeはコーパス全体の共起統計(カウントベース)を主に使い、word2vecは周辺語予測などのニューラル言語モデル的な学習(予測ベース)が中心です。目的は近いが学習の出発点が異なります。

GloVeとELMoは同じですか?

同じではありません。GloVeは語ごとに固定の分散表現(静的埋め込み)を得ます。ELMoは双方向LSTMから文脈に応じて変わる動的な埋め込みを出力します。文脈の扱い方が根本的に異なります。