チャンキング(Chunking)は、長い文書をRAGやベクトル検索向けに小さな単位(チャンク)へ分割する前処理です。本記事は分割アルゴリズムの網羅ではなく、試験で頻出の定義と実務判断——チャンクとRAGを混同しない——に焦点を当てます。
試験で問われる見方
生成AIパスポートでは、チャンク(チャンキングの結果)の定義が繰り返し問われます。「検索や埋め込みのために文書を小さな単位に分割したもの」(HQ-0448、HQ-0404、HQ-0470)。
比較問題の定番:チャンクの説明をRAGに当てはめる、または逆(HQ-0371)。正解は「チャンク=分割単位、RAG=検索しながら生成する手法」です。
不適切説明として、チャンクの定義をRAGにする問題もあります(HQ-0370、HQ-0348)。
演習で確認する
チャンキングとは
PDFマニュアル、Wiki、規程集などはそのままでは長すぎて、埋め込みやコンテキストウィンドウの制限に収まりません。チャンキングは、見出し・段落・固定トークン数などのルールで検索しやすい粒度に切り出します。切り出された1片がチャンクです。
チャンクとRAGの違い
| 用語 | 性質 | 試験の一文 |
|---|---|---|
| チャンク | 分割された文書の単位・データ | 小さな単位に分割したもの |
| チャンキング | 分割する処理 | 上記を行う前処理 |
| RAG | 検索+生成のアーキテクチャ | 外部情報を参照しながら生成 |
| ベクトルDB | ベクトル保存の基盤 | 埋め込みを保存・検索するDB |
実務の判断ポイント
- サイズ — 512/1024トークン前後から調整(モデル・用途による)
- オーバーラップ — 隣接チャンクを少し重ね、文脈の切れ目を緩和
- 構造尊重 — 見出し・条番号で切ると検索精度が上がりやすい
- メタデータ — 出典URL・章タイトルをチャンクに付与
- 更新 — 原文が変わったら該当チャンクを再インデックス
注意点
よくある質問
チャンクとRAGは同じ?
いいえ(HQ-0371)。
チャンク=ベクトルDB?
いいえ。チャンクは文書片、ベクトルDBはベクトルを格納するシステムです。
全文を1チャンクにしない?
短いFAQなら可能ですが、長文では検索精度とコストの面で分割が一般的です。