SAM 2(Segment Anything Model 2)は、Metaが公開した画像・動画の汎用セグメンテーションモデルです。Mask R-CNNが「人・車など学習済みクラスの箱と輪郭を出す」のに対し、SAM 2は点や枠をプロンプトとして投げれば、クラス名を聞かずに輪郭を返す——本記事はTransformer内部の細部より、「教師あり検出からプロンプト駆動セグへ」という設計思想の転換に焦点を当てます。
試験で問われる見方
SAM 2単独の過去問はまだ少ない一方、辞典の定義は「画像・動画の汎用セグメンテーションモデル」です。試験ではセグメンテーションの種類(G-317、TF-116)と代表モデルとの違い(G-326)を土台に整理します。
誤答では、SAM 2=物体検出だけ(G-021)、SAM 2=画像生成(TF-0184)、SAM 2=形態素解析(G-022)など、別タスクとのすり替えに注意します。
SAM 2とは
SAM 2は、2023年のSegment Anything(SAM)を発展させ、動画フレーム間で対象を追跡しながらマスクを更新できるようにした後継モデルです(2024年公開)。大量の画像・動画で学習された基盤モデルとして位置づけられ、下流タスク向けの共通の「切り出しエンジン」として使われることが多いです。
出力は画素単位のマスク(領域の輪郭)です。物体検出のバウンディングボックスだけでは足りない編集・計測・追跡では、形まで知りたい——SAM 2はその要求に応えるモデルとして注目を集めました。
プロンプト駆動の意味
従来のMask R-CNNは、学習時に決めたクラス(COCOの80類など)を前提に推論します。SAM 2はユーザーの指示(プロンプト)で対象を指定します。
| プロンプト例 | ユーザーの意図 | 試験向け |
|---|---|---|
| 点(クリック) | 「ここにある物体を切り出して」 | 最小限の指示でマスク取得 |
| 矩形(ボックス) | 「この範囲の主対象を」 | 検出框に近いがマスク出力 |
| 既存マスク | 「この形を修正・拡張して」 | インタラクティブ編集向け |
「犬」「車」といったクラス名をモデルに伝える必要がない——これが「Segment Anything(何でも切り出す)」の意味です。試験では、固定クラス教師あり型との対比が得点源になります。
画像から動画へ
SAM 2の「2」の価値は、時間軸にあります。動画ではフレームごとに独立して切り出すと、対象の形がちらつきます。SAM 2はフレーム間でメモリを共有し、一度指定した対象を連続フレームで追跡しながらマスクを更新します。
- 入力 — 画像1枚、または動画系列
- 指定 — 最初のフレームで点・枠などをプロンプト
- 追跡 — 以降のフレームで同一対象のマスクを維持・更新
- 用途 — 動画編集の被写体切り抜き、モニタリング、データアノテーション支援など
静止画セグメンテーションの延長ではなく、「対象の一貫した領域追跡」——という動画理解の入口として整理すると、他モデルとの違いが明確になります。
従来のセグモデルとの対比
| 観点 | Mask R-CNN 等 | SAM 2 |
|---|---|---|
| 対象の指定 | 学習済みクラスを自動検出 | プロンプトで任意対象 |
| 出力 | 箱+クラス+マスク | マスク中心(検出パイプライン不要) |
| 学習の前提 | クラス付きアノテーションが典型 | 大規模データで汎用化 |
| 動画 | フレーム独立が多い | 時系列追跡を意識 |
| 試験 | G-326 | 汎用セグ・基盤モデルとして整理 |
FCNがセマンティックセグメンテーション(画素ごとのクラス、個体は区別しない——TF-116)の代表であるのに対し、SAM 2はプロンプトで個体レベルのマスクを得る——インスタンスセグに近い出力を、クラス一覧なしで実現する、と理解すると整理しやすいです。
実務での使われ方
- 画像編集 背景ぼかし・物体消去・切り抜き合成(Microsoft Designer等でSAMが言及されることも)
- アノテーション支援 点1つでマスク草案を出し、人間が修正——ラベリングコスト削減
- 動画制作 被写体のマスク追跡によるエフェクト適用
- 下流モデルの前処理 関心領域の切り出しを他の認識・生成パイプラインへ渡す
SAM 2は画像を新しく描くモデルではありません。Text-to-ImageやStable Diffusionと組み合わせて「切り出した領域だけ編集する」——といったパイプラインの部品として使われることはあります。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| SAM 2=Stable Diffusion | 領域切り出し vs 画像生成(TF-0184) |
| SAM 2=物体検出のみ | マスク(輪郭)まで出すセグメンテーション |
| SAM 2=Mask R-CNN | プロンプト駆動の汎用セグ vs 固定クラス教師あり |
| SAM 2=FCNの別名 | セマンティック一括分類 vs プロンプト指定の個体マスク |
| SAM 2=形態素解析 | 画像の領域分割 vs 文章の分割(G-022) |
| プロンプト=テキスト生成の指示だけ | 点・枠・マスクも「プロンプト」になり得る |
よくある質問
SAM 2は何をするモデルですか?
Segment Anything Model 2の略で、画像や動画の中からユーザーが指定した物体の輪郭(マスク)を切り出す汎用セグメンテーションモデルです。点・矩形・既存マスクなどをプロンプトとして与え、事前に決めたクラス名に縛られず対象を分離できます。
SAM 2とMask R-CNNは同じですか?
同じではありません。Mask R-CNNは学習済みクラス(人・車など)を前提に、検出とインスタンスマスクを同時に出す教師あり型の代表例です。SAM 2はプロンプトで任意対象を切り出す汎用セグメンテーションの基盤モデルで、固定クラス一覧に依存しない設計が特徴です。
SAM 2は画像生成AIですか?
いいえ。SAM 2は既存の画像・動画から領域を切り出すセグメンテーション向けモデルです。テキストから新しい画像を生成する拡散モデル(Stable Diffusionなど)やText-to-Imageとは役割が異なります。