トークンとは？生成AIの仕組みとG検定での出題ポイント

Q: トークンとは何ですか？

LLMがテキストを処理する際の最小単位です。単語・記号・語の一部などに分割されます。英語1語が1トークン程度、日本語は1文字が1〜2トークン程度が目安です。

Q: トークンと文字数は同じですか？

同じではありません。トークンはモデル固有の分割単位であり、文字数・単語数とは一致しません。日本語は文字数よりトークン数が多くなる傾向があります。

Q: コンテキストウィンドウとは何の関係？

コンテキストウィンドウはモデルが一度に処理できるトークン数の上限です。入力と出力の合計がこの上限内に収まる必要があります。

Q: どの試験で出題されますか？

G検定（NLP・生成AI）と生成AIパスポート（第2章）で出題されます。

トークン（Token）は、LLMがテキストを処理する際の最小単位です。「次のトークンを予測する」というLLMの基本動作を理解するうえで欠かせない概念で、G検定・生成AIパスポートの両方で出題されます。本記事では定義・単語・文字との違い・コンテキストウィンドウとの関係・試験の出題ポイントを整理します。詳細は用語辞典「トークン」もあわせてご覧ください。

トークンとは

トークンは、LLMが入力テキストを分割して処理する単位です。人間が見る「単語」とは必ずしも一致しません。

英語の例 「ChatGPT」→「Chat」「GPT」のように分割されることも、「hello」→1トークンになることも
日本語の例 1文字が1トークン程度、または複数文字が1トークンになることもある
記号・スペース 句読点や改行もトークンとしてカウントされる
トークナイザー テキストをトークンに分割するアルゴリズム。モデルごとに異なる

トークン化の仕組み

サブワード分割（BPE等） 頻出する文字列をトークンとして登録し、未知語も部分に分割して処理
なぜ分割が必要か LLMは離散なトークンIDの系列として入力を受け取り、数値ベクトルに変換して処理
生成の単位 LLMは1トークンずつ次のトークンを予測し、文章を構築する

日本語の目安

試験や実務でよく使われるおおよその目安です（モデルにより異なります）。

言語	目安
英語	約4文字＝1トークン（1単語≒1トークン程度）
日本語	約1〜2文字＝1トークン（英語よりトークン効率が低い）

日本語は同じ文字数でも英語より多くのトークンを消費するため、コンテキストウィンドウの上限に達しやすい点に注意が必要です。

コンテキストウィンドウとの関係

コンテキストウィンドウ モデルが一度に処理できるトークン数の上限（例：8K、128Kトークン）
入力＋出力の合計 プロンプト（入力）と生成文（出力）の合計が上限内に収まる必要がある
API料金 多くのAPIはトークン数に応じて課金される（試験では概念として問われる）
長文の扱い 上限を超える文書はチャンキング（分割）して処理

試験での出題ポイント

試験	出題の傾向	演習
G検定	NLP・LLMの基礎、トークン化の概念	domain-05
生成AIパスポート	第2章でLLMの仕組みとして出題。コンテキスト上限の理解	第2章

定義の選択 トークンの正しい説明（LLMの処理単位、単語と必ず一致しない）
混同の排除 トークン＝文字数、トークン＝バイト数、などの誤り
LLMとの関係 次トークン予測がLLMの基本動作であること

よくある質問

トークンとは何ですか？

LLMがテキストを処理する最小単位です。用語辞典で詳しく解説しています。

トークンと文字数は同じですか？

同じではありません。日本語は文字数よりトークン数が多くなる傾向があります。

コンテキストウィンドウとは何の関係？

コンテキストウィンドウは処理できるトークン数の上限です。入力と出力の合計が上限内に収まる必要があります。

どの試験で出題されますか？

G検定と生成AIパスポート第2章で出題されます。LLMの解説とあわせて学習しましょう。