生成AI活用

チャンキングとは?文書分割・チャンク・RAGの前処理

読み:ちゃんきんぐ / 英:Chunking

更新日: 読了目安:約6分

チャンキング(Chunking)は、長い文書をRAGベクトル検索向けに小さな単位(チャンク)へ分割する前処理です。本記事は分割アルゴリズムの網羅ではなく、試験で頻出の定義と実務判断——チャンクとRAGを混同しない——に焦点を当てます。

試験で問われる見方

生成AIパスポートでは、チャンク(チャンキングの結果)の定義が繰り返し問われます。「検索や埋め込みのために文書を小さな単位に分割したもの」HQ-0448HQ-0404HQ-0470)。

比較問題の定番:チャンクの説明をRAGに当てはめる、または逆(HQ-0371)。正解は「チャンク=分割単位、RAG=検索しながら生成する手法」です。

不適切説明として、チャンクの定義をRAGにする問題もあります(HQ-0370HQ-0348)。

チャンキングとは

PDFマニュアル、Wiki、規程集などはそのままでは長すぎて、埋め込みコンテキストウィンドウの制限に収まりません。チャンキングは、見出し・段落・固定トークン数などのルールで検索しやすい粒度に切り出します。切り出された1片がチャンクです。

チャンクとRAGの違い

用語性質試験の一文
チャンク分割された文書の単位・データ小さな単位に分割したもの
チャンキング分割する処理上記を行う前処理
RAG検索+生成のアーキテクチャ外部情報を参照しながら生成
ベクトルDBベクトル保存の基盤埋め込みを保存・検索するDB

実務の判断ポイント

  1. サイズ — 512/1024トークン前後から調整(モデル・用途による)
  2. オーバーラップ — 隣接チャンクを少し重ね、文脈の切れ目を緩和
  3. 構造尊重 — 見出し・条番号で切ると検索精度が上がりやすい
  4. メタデータ — 出典URL・章タイトルをチャンクに付与
  5. 更新 — 原文が変わったら該当チャンクを再インデックス

注意点

  • 大きすぎるチャンク — 検索がぼやけ、トークン浪費
  • 小さすぎるチャンク — 文脈不足で誤回答
  • 機密段落がそのままインデックスされるリスク
  • チャンキングだけではハルシネーションは消えない

よくある質問

チャンクとRAGは同じ?

いいえ(HQ-0371)。

チャンク=ベクトルDB?

いいえ。チャンクは文書片、ベクトルDBはベクトルを格納するシステムです。

全文を1チャンクにしない?

短いFAQなら可能ですが、長文では検索精度とコストの面で分割が一般的です。