用語解説

トークンとは?生成AIの仕組みとG検定での出題ポイント

定義 · 日本語の目安 · コンテキスト上限 · 出題ポイント

カレンダーと時計でトークンの概念を学習する様子
出典:Unsplash(NordWood Themes)
更新日: 読了目安:約7分

トークン(Token)は、LLMがテキストを処理する際の最小単位です。「次のトークンを予測する」というLLMの基本動作を理解するうえで欠かせない概念で、G検定・生成AIパスポートの両方で出題されます。本記事では定義・単語・文字との違い・コンテキストウィンドウとの関係・試験の出題ポイントを整理します。詳細は用語辞典「トークン」もあわせてご覧ください。

トークンとは

トークンは、LLMが入力テキストを分割して処理する単位です。人間が見る「単語」とは必ずしも一致しません。

  • 英語の例 「ChatGPT」→「Chat」「GPT」のように分割されることも、「hello」→1トークンになることも
  • 日本語の例 1文字が1トークン程度、または複数文字が1トークンになることもある
  • 記号・スペース 句読点や改行もトークンとしてカウントされる
  • トークナイザー テキストをトークンに分割するアルゴリズム。モデルごとに異なる

トークン化の仕組み

  • サブワード分割(BPE等) 頻出する文字列をトークンとして登録し、未知語も部分に分割して処理
  • なぜ分割が必要か LLMは離散なトークンIDの系列として入力を受け取り、数値ベクトルに変換して処理
  • 生成の単位 LLMは1トークンずつ次のトークンを予測し、文章を構築する

日本語の目安

試験や実務でよく使われるおおよその目安です(モデルにより異なります)。

言語 目安
英語 約4文字=1トークン(1単語≒1トークン程度)
日本語 約1〜2文字=1トークン(英語よりトークン効率が低い)

日本語は同じ文字数でも英語より多くのトークンを消費するため、コンテキストウィンドウの上限に達しやすい点に注意が必要です。

コンテキストウィンドウとの関係

  • コンテキストウィンドウ モデルが一度に処理できるトークン数の上限(例:8K、128Kトークン)
  • 入力+出力の合計 プロンプト(入力)と生成文(出力)の合計が上限内に収まる必要がある
  • API料金 多くのAPIはトークン数に応じて課金される(試験では概念として問われる)
  • 長文の扱い 上限を超える文書はチャンキング(分割)して処理

試験での出題ポイント

試験 出題の傾向 演習
G検定 NLP・LLMの基礎、トークン化の概念 domain-05
生成AIパスポート 第2章でLLMの仕組みとして出題。コンテキスト上限の理解 第2章
  • 定義の選択 トークンの正しい説明(LLMの処理単位、単語と必ず一致しない)
  • 混同の排除 トークン=文字数、トークン=バイト数、などの誤り
  • LLMとの関係 次トークン予測がLLMの基本動作であること

よくある質問

トークンとは何ですか?

LLMがテキストを処理する最小単位です。用語辞典で詳しく解説しています。

トークンと文字数は同じですか?

同じではありません。日本語は文字数よりトークン数が多くなる傾向があります。

コンテキストウィンドウとは何の関係?

コンテキストウィンドウは処理できるトークン数の上限です。入力と出力の合計が上限内に収まる必要があります。

どの試験で出題されますか?

G検定と生成AIパスポート第2章で出題されます。LLMの解説とあわせて学習しましょう。