NLTKとは？教科書に載る道具箱——コーパスと前処理を束ねた古典NLPキット

NLTK（Natural Language Toolkit）は、自然言語処理の教育・研究向けPythonツールキットです。トークン化、品詞付け、コーパス操作——LLM以前のNLPを「1本のモデル」ではなく道具の集合として学ぶための箱——MeCabが日本語形態素に特化するのに対し、NLTKは英語中心の古典パイプライン全体を束ねる、という切り口で整理します。

LLM以前の道具箱

TF-126が示すNLPの典型タスク——分類、要約、感情分析など——は、かつて前処理→特徴量化→機械学習という段階で組み立てられました。

NLTKはその入口から中間までを担うライブラリです。大学の教科書やKaggle入門で「まずNLTKでトークン化」と書かれるのは、言語モデルではなく処理部品の集まりだから——試験では「教育・研究向けの古典NLPツールキット」と一言で押さえれば十分です。

中に入っている機能

NLTKは単機能ツールではなく、複数のNLP部品をPythonから呼び出せるようにまとめたキットです。

機能の例	内容	試験での関連
トークン化	文を語や記号単位に分割	前処理の第一歩（G-025）
品詞付け	名詞・動詞などのラベル推定	形態素解析に近い段階（G-022）
コーパス	Brown Corpusなど標準データの読み込み	学習・評価用テキストの提供
古典LM	N-gramなどの実験	ニューラルLLM以前の言語モデル
特徴抽出	頻度ベースの表現へ	Bag of Words、LDAの前段

2026年6月時点でも教材では広く参照されますが、本番の大規模サービスでは高速な別ライブラリを選ぶことも多い——学習用の定番と位置づけるのが実務的です。

古典NLPパイプラインでの位置

1. テキスト取得 — NLTKのコーパスや外部ファイルを読み込む
2. 前処理 — トークン化、ストップワード除去、ステミング（語幹化）
3. 特徴量化 — BoW、TF-IDF、N-gram特徴
4. モデル — ナイーブベイズ、SVM、のちにBERTへ

G-331が示すNLPの範囲——テキストの理解・生成——において、NLTKは理解のための下準備を担います。生成そのものはLLMやTransformerの領域です。

MeCab・BERTとの違い

観点	NLTK	MeCab	BERT
性質	総合ツールキット	日本語形態素解析エンジン	ニューラル言語モデル
主な言語	英語教材が中心	日本語特化	多言語だがモデル単体
出力	トークン列・品詞・統計特徴	形態素＋品詞	文脈埋め込みベクトル
時代感	古典NLPの学習	日本語前処理の定番	事前学習モデル時代（G-337）

NLTKで英語をトークン化し、日本語はMeCabに渡す——言語ごとに道具を使い分けるのが現実的な構成です。いずれもLLMそのものではない点は共通です。

試験で押さえるポイント

定義 — Natural Language Toolkit＝教育・研究向けの古典NLPツールキット
役割 — トークン化・品詞付け・コーパス操作など前処理と実験
対比 — NLP（分野）、MeCab（日本語形態素）、BERT/LLM（ニューラルモデル）
すり替え回避 — 大規模言語モデル・画像認識・DBではない

演習で確認する

G検定：TF-126、G-331、G-022、G-337

すり替えに注意

誤った説明	正しい理解
NLTK＝NLPそのもの	分野 vs 具体的ライブラリ名
NLTK＝LLM	前処理ツールキット vs 大規模言語モデル
NLTK＝MeCab	英語中心の総合キット vs 日本語形態素エンジン
NLTK＝BERT	古典部品の集合 vs 事前学習ニューラルモデル
NLTK＝BPE	ライブラリ vs サブワード分割アルゴリズム

よくある質問

NLTKは何をするツールキットですか？

自然言語処理の学習・研究向けPythonライブラリで、トークン化、品詞付け、構文解析、コーパスの読み込みと操作などをまとめて提供します。単一の言語モデルではなく、古典NLPのパイプラインを組み立てるための道具箱です。

NLTKとMeCabは同じですか？

同じではありません。NLTKは英語圏の教育・研究向けに広く使われる総合NLPツールキットです。MeCabは日本語の形態素解析に特化したオープンソースエンジンです。NLTKからMeCabを呼び出すことはありますが、役割と対象言語の焦点が異なります。

NLTKとLLMは同じですか？

同じではありません。NLTKは前処理や古典的なNLPタスクを実装するためのライブラリです。LLMは大規模データで学習したニューラルネットベースの大規模言語モデルです。NLTKでトークン化して特徴量を作る段階と、LLMが文脈から次語を生成する段階は、技術の世代も役割も異なります。