モデル・技術

TF-IDFとは?珍しい語に目がいく——全体ではありふれた語の重みを落とす

読み:ティーエフ・アイディーエフ / 英:TF-IDF(Term Frequency–Inverse Document Frequency)

更新日: 読了目安:約7分

TF-IDFは、文書を数値化する古典的なNLP手法で、文書内でよく出る語(TF)とコーパス全体では珍しい語(IDF)を掛け合わせて重みをつけます。BoWが「とにかく数える」だけなら、TF-IDFは「どの語がこの文書らしさを語るか」に目を通す——本記事は対数の細部より、この二段の目に焦点を当てます。

試験で問われる見方

TF-IDFの定義は次の一文が骨格です(G-333)。

文書内で頻出し、文書集合全体では珍しい語を重視する重み付けである。

TF-128の×問題は逆を問います——「全体でありふれた語ほど高く重み付けする」は誤り。ありふれた語は下げるのがTF-IDFです。

TFとIDF——二つの目

TF-IDFは名前の通り、2つの係数の積です。試験では記号の計算式より、それぞれが何を見ているかを押さえれば足ります。

要素英名見ているもの直感
TFTerm Frequencyこの文書の中での出現の多さ「この文書では何度も出てくる語」
IDFInverse Document Frequencyコーパス全体での希少性「どの文書にもいる語は信用しない」
TF-IDFTF × IDF文書内では目立つが、全体では珍しい語が高得点

例えば技術文書コーパスで、「Transformer」が1文書に5回出て、かつ全1000文書のうち10文書にしか出ない——TFもIDFも相対的に高く、その文書のトピックを示す手がかりになりやすいです。逆に「の」「する」はTFは高くても、ほぼ全文献に出るためIDFが低く、総合スコアは抑えられます。

ありふれた語の罠

BoWだけだと、日本語・英語ともに機能語——「です」「the」「a」——がカウントを支配し、文書の違いが埋もれます。これは検索でも分類でも困ります。「どの文書にもある語」は識別に役立たない(G-333の解説)からです。

  • BoWの限界 — 素の出現回数。ありふれた語がベクトルを占有
  • TF-IDFの修正 — IDFで全体頻度の高い語を割り引く
  • 残る課題 — 語順は依然として捨てる。同義語は別語として扱う

TF-IDFは「賢い重み付け」ですが、意味理解までは担いません——そこからGloVe埋め込みへ進化します(G-344)。

文書ベクトルとして使う

語彙を決め、各語のTF-IDF値を並べれば文書ベクトルができます。BoWと手順は似ていますが、各次元の値が「生の回数」ではなく重み付きスコアになる点が違います。

  1. 前処理 — 形態素解析(MeCabなど)で語に分割
  2. TF計算 — 文書内の各語の頻度
  3. IDF計算 — コーパス全体の文書数と、その語を含む文書数から希少性を算出
  4. ベクトル化 — 語彙次元のTF-IDF値を並べ、分類器や検索に渡す

2文書のベクトル間のコサイン類似度などで似ている文書を探す——キーワード検索の古典的な土台です。

検索と分類

  • 文書検索 クエリ語のTF-IDFベクトルと文書ベクトルの類似度でランキング——BM25の祖先(G-333)
  • 文書分類 スパム判定・トピック分類の特徴量としてロジスティック回帰やSVMに入力
  • キーワード抽出 文書内TF-IDFが高い語を「この文書のキーワード」候補に

現代のセマンティック検索RAG埋め込みモデルが主流ですが、TF-IDFは軽量・解釈しやすい——小規模コーパスやベースラインとして今も現場に残ります。

BoW・BM25・埋め込みへの流れ

手法文書の見方試験の接点
BoW出現回数をそのまま数えるG-332
TF-IDFありふれた語を割り引くG-333、TF-128
BM25TF-IDF系を検索ランキング向けに洗練TF-0236
word2vec / GloVe語の意味ベクトルを学習G-343、G-344
埋め込み密なベクトルで意味的類似を扱うRAG・現代検索

G-344では「BoW、TF-IDF、word2vecはNLPの特徴表現、MFCCは音声」——分野の線引きが問われます。TF-IDFは深層学習の前の章として確実に押さえておきましょう。

すり替えに注意

誤った説明正しい理解
ありふれた語ほど重くする下げる(TF-128は×、G-333)
TF-IDF=畳み込みフィルタNLPの重み付け vs 画像の局所演算(G-333のC)
TF-IDF=強化学習の割引率文書特徴量 vs RLのγ(G-333のD)
TF-IDF=GloVe文書スコア vs 語ベクトル学習(G-344)
TF-IDF=MFCCNLP vs 音声特徴量(G-344、G-355)
TF-IDF=語順を保持BoW同様、基本的に語順は捨てる

よくある質問

TF-IDFのTFとIDFは何ですか?

TF(Term Frequency)は、その文書の中で語がどれだけ頻繁に出るかを表します。IDF(Inverse Document Frequency)は、文書集合全体でその語がどれだけ珍しいか——多くの文書に出る語ほどIDFは小さくなる——を表します。TF-IDFはこの2つを掛け合わせ、文書内では目立つが全体では珍しい語を高く評価します。

TF-IDFとBoWの違いは?

BoWは文書内の出現回数(または有無)をそのまま特徴量にします。TF-IDFはBoWの発展形で、コーパス全体にありふれた語(例:「です」「こと」)の重みを下げ、文書を識別しやすい語を相対的に強調します。どちらも語順は基本的に捨てる古典的な文書表現です。

TF-IDFは畳み込みフィルタですか?

いいえ。TF-IDFは自然言語処理の文書特徴量・重み付け手法です。画像の局所特徴を抽出する畳み込みフィルタ(G-333の誤答C)とは無関係です。