埋め込みモデルとは？Embedding Model・ベクトル化

埋め込みモデル（Embedding Model）は、テキストやコードなどを検索向けのベクトルに変換する専用の機械学習モデルです。本記事は各社モデル名の比較ではなく、LLMとの役割分担——なぜ別モデルが要るか——に焦点を当てます。

試験で問われる見方

単独の略称問題は少ないですが、埋め込みの実体として「テキストをベクトル化するモデル」と理解し、ベクトルDB・RAGと接続できることが重要です（TF-0232）。

LLMと混同しやすい点：埋め込みモデルはベクトル出力・検索向け、LLMは自然言語生成。RAGではインデックスとクエリの両方に同じ埋め込みモデルを使います（HQ-0449）。

チャンク・RAG・ベクトルDBの定義すり替え問題では、埋め込みモデルはベクトル化の工程として位置づけます（HQ-0371、HQ-0448）。

演習で確認する

TF-0232、HQ-0449、HQ-0371

入力文（やチャンク）を受け取り、固定次元の実数ベクトルを出力します。意味が近い文は出力ベクトルも近くなるよう学習されています。古典的にはword2vec、現代ではTransformerベースのモデルが主流です。

インデックス時と検索時で同じモデルを使う必要があります（次元・空間の一致）。

埋め込みモデル＝埋め込み？

埋め込みは技術・結果のベクトル、埋め込みモデルはそれを生成するモデルです。

ChatGPTのモデルで埋め込みAPIは？

各クラウドは埋め込み専用APIを提供しています。チャットモデルとは別エンドポイントです。

ファインチューニングする？

ドメイン特化で埋め込みを追加学習することはあります。ファインチューニングの一種として理解できます。