データ・運用

ベクトルデータベースとは?Vector Database・RAGの基盤

読み:べくとるでーたべーす / 英:Vector Database

更新日: 読了目安:約6分

ベクトルデータベース(Vector Database/ベクトルDB)は、埋め込みベクトルと元テキストなどのメタデータを保存し、意味的に近いベクトルを高速検索するためのデータベースです。本記事は製品比較ではなく、RAGスタックの基盤層——チャンク・RAGと混同しない定義——に焦点を当てます。

試験で問われる見方

定義の核:「意味的な近さで検索できるよう、埋め込みベクトルを保存・検索するデータベース」HQ-0449HQ-0416HQ-0471)。

○:埋め込みを保存し意味検索に使うTF-0232)。×:個人識別番号だけを保管する行政台帳TF-0233)。

チャンクの定義やRAGの定義をベクトルDBにすり替える誤答が多いです(HQ-0448のB選択肢など)。

演習で確認する

TF-0232TF-0233HQ-0449

ベクトルDBとは

従来のRDBは行・列の完全一致検索が得意です。ベクトルDBは、高次元ベクトル間の近傍探索(ANN: Approximate Nearest Neighbor)に最適化されています。数百万チャンク規模でもミリ秒〜秒オーダーで類似検索できる製品があります。

代表例として Pinecone、Weaviate、Milvus、pgvector(PostgreSQL拡張)などが知られますが、試験では役割の定義が優先です。

近い用語との違い

用語一言
ベクトルDBベクトル保存+類似検索のストア
ベクトル検索検索の方式・処理
チャンク分割された文書片
RAG検索+生成の全体手法

RAGでの役割

  1. チャンキングした文書を埋め込みモデルでベクトル化
  2. ベクトル+本文+メタデータをベクトルDBに登録
  3. 質問ベクトルで近傍検索 → 関連チャンクを取得
  4. LLMがチャンクを参照して回答(RAG

運用・リスク

  • 個人情報機密をインデックスしない/マスキング
  • 文書更新時の再インデックス手順
  • アクセス制御・テナント分離(マルチテナントSaaS)
  • 検索精度はDBだけでは決まらない(埋め込み・チャンク設計)

よくある質問

ベクトルDB=RAG?

いいえ。RAGの構成要素のひとつです。

通常のDBで代用できる?

小規模なら可能ですが、大規模な意味検索では専用DBや拡張の利用が一般的です。

行政のマイナンバー台帳?

いいえ(TF-0233)。AI文脈の技術用語です。