トークン(Token)は、LLMがテキストを処理する際の最小単位です。「次のトークンを予測する」というLLMの基本動作を理解するうえで欠かせない概念で、G検定・生成AIパスポートの両方で出題されます。本記事では定義・単語・文字との違い・コンテキストウィンドウとの関係・試験の出題ポイントを整理します。詳細は用語辞典「トークン」もあわせてご覧ください。
トークンとは
トークンは、LLMが入力テキストを分割して処理する単位です。人間が見る「単語」とは必ずしも一致しません。
- 英語の例 「ChatGPT」→「Chat」「GPT」のように分割されることも、「hello」→1トークンになることも
- 日本語の例 1文字が1トークン程度、または複数文字が1トークンになることもある
- 記号・スペース 句読点や改行もトークンとしてカウントされる
- トークナイザー テキストをトークンに分割するアルゴリズム。モデルごとに異なる
トークン化の仕組み
- サブワード分割(BPE等) 頻出する文字列をトークンとして登録し、未知語も部分に分割して処理
- なぜ分割が必要か LLMは離散なトークンIDの系列として入力を受け取り、数値ベクトルに変換して処理
- 生成の単位 LLMは1トークンずつ次のトークンを予測し、文章を構築する
日本語の目安
試験や実務でよく使われるおおよその目安です(モデルにより異なります)。
| 言語 | 目安 |
|---|---|
| 英語 | 約4文字=1トークン(1単語≒1トークン程度) |
| 日本語 | 約1〜2文字=1トークン(英語よりトークン効率が低い) |
日本語は同じ文字数でも英語より多くのトークンを消費するため、コンテキストウィンドウの上限に達しやすい点に注意が必要です。
コンテキストウィンドウとの関係
- コンテキストウィンドウ モデルが一度に処理できるトークン数の上限(例:8K、128Kトークン)
- 入力+出力の合計 プロンプト(入力)と生成文(出力)の合計が上限内に収まる必要がある
- API料金 多くのAPIはトークン数に応じて課金される(試験では概念として問われる)
- 長文の扱い 上限を超える文書はチャンキング(分割)して処理
試験での出題ポイント
| 試験 | 出題の傾向 | 演習 |
|---|---|---|
| G検定 | NLP・LLMの基礎、トークン化の概念 | domain-05 |
| 生成AIパスポート | 第2章でLLMの仕組みとして出題。コンテキスト上限の理解 | 第2章 |
- 定義の選択 トークンの正しい説明(LLMの処理単位、単語と必ず一致しない)
- 混同の排除 トークン=文字数、トークン=バイト数、などの誤り
- LLMとの関係 次トークン予測がLLMの基本動作であること