セマンティック検索(Semantic Search)は、クエリと文書の語句の一致ではなく、意味的な関連性に基づいて情報を探す検索の考え方です。本記事は検索エンジンの歴史全般ではなく、キーワード検索・ベクトル検索との地図——RAG文脈での位置づけ——に焦点を当てます。
試験で問われる見方
単独の定義問題は少ないですが、ベクトルDBの説明「意味的な近さで検索」(TF-0232)やRAGの検索段階と結びつけて理解します。
画像分野の「セマンティックセグメンテーション」(G-330)は別の「セマンティック」——画素の意味領域分割——であり、本記事の検索とは文脈が異なります。
演習で確認する
セマンティック検索とは
ユーザーが「有給の残日数の確認方法」と聞いたとき、マニュアルに「年次有給休暇の取得残数」という表現しかなくても、意味が近ければヒットさせたい——それがセマンティック検索の動機です。
検索方式のスペクトル
| 方式 | マッチの基準 | 例 |
|---|---|---|
| キーワード検索 | 語の出現・TF-IDF・BM25 | 製品型番の完全一致 |
| セマンティック検索 | 意味的類似性 | 言い換え質問への対応 |
| ベクトル検索 | 埋め込みベクトルの距離 | セマンティック検索の実装例 |
| ハイブリッド | キーワード+ベクトルの併用 | 実務でよく採用 |
実装との対応
概念と技術の対応を整理します。
限界
- 固有名詞・コード番号はキーワード検索の方が強いことも
- 埋め込みの質次第で関連性のない文書が上位に来る
- 意味が近くても事実が誤っている文書は誤答の元(TF-0171)
よくある質問
セマンティック検索=ベクトル検索?
実務ではほぼ同義に使われることが多いですが、厳密にはベクトル検索は実装手法、セマンティック検索は目的・概念です。
Google検索はセマンティック?
現代のWeb検索は意味理解の要素を含みますが、試験ではRAG・ベクトルDBの文脈を優先してください。
LLMに検索させればセマンティック?
LLM単体の知識想起と、外部文書のセマンティック検索は別です。RAGは後者を使います。