チャンキングとは？文書分割・チャンク・RAGの前処理

同じではありません。チャンクは分割された文書の単位、RAGは検索結果を参照しながら生成する手法です。

チャンキング（Chunking）は、長い文書をRAGやベクトル検索向けに小さな単位（チャンク）へ分割する前処理です。本記事は分割アルゴリズムの網羅ではなく、試験で頻出の定義と実務判断——チャンクとRAGを混同しない——に焦点を当てます。

試験で問われる見方

生成AIパスポートでは、チャンク（チャンキングの結果）の定義が繰り返し問われます。「検索や埋め込みのために文書を小さな単位に分割したもの」（HQ-0448、HQ-0404、HQ-0470）。

比較問題の定番：チャンクの説明をRAGに当てはめる、または逆（HQ-0371）。正解は「チャンク＝分割単位、RAG＝検索しながら生成する手法」です。

不適切説明として、チャンクの定義をRAGにする問題もあります（HQ-0370、HQ-0348）。

演習で確認する

HQ-0371（チャンク vs RAG）、HQ-0448、HQ-0370

PDFマニュアル、Wiki、規程集などはそのままでは長すぎて、埋め込みやコンテキストウィンドウの制限に収まりません。チャンキングは、見出し・段落・固定トークン数などのルールで検索しやすい粒度に切り出します。切り出された1片がチャンクです。

チャンクとRAGは同じ？

いいえ（HQ-0371）。

チャンク＝ベクトルDB？

いいえ。チャンクは文書片、ベクトルDBはベクトルを格納するシステムです。

全文を1チャンクにしない？

短いFAQなら可能ですが、長文では検索精度とコストの面で分割が一般的です。