SSD(Single Shot Detector)は、CNNの複数層の特徴マップにあらかじめ置いたデフォルトボックス(アンカー)から、一度の推論で物体の位置とクラスを出す検出モデルです。Faster R-CNNが「候補を出してから見る」二段構成なのに対し、SSDは浅い層で小物体・深い層で大物体——本記事はアンカー数の暗記より、「なぜマルチスケール一発検出が効くか」に焦点を当てます。
試験で問われる見方
SSDの定義は「画像中の物体の位置と種類を同時に推定する物体検出モデル」の代表例です(G-323、TF-121)。YOLO、Faster R-CNNとセットで暗記されることが多く、BERTなどNLPモデルとのすり替えが定番です(G-323)。
タスクの対比では、SSDは物体検出(G-324)、U-Netはセグメンテーション——モデル名とタスクの組み合わせを確認します。
演習で確認する
G検定:G-323(代表モデル一覧)、TF-121(定義)、G-324(YOLOとのタスク対比)、G-335(BERTすり替え)
SSDとは
SSDは2016年頃に提案された物体検出モデルです。入力画像をCNNに通し、各特徴マップ位置について複数のデフォルトボックスに対して、クラス確率と位置の補正(オフセット)を予測します。
出力はバウンディングボックス+クラスラベル——「画像のどこに、何があるか」——です。G-021の物体検出タスク定義にそのまま対応します。
Single Shotの意味
「Single Shot」は検出までを一度の順伝播で終える——という設計思想です。R-CNN系の初期モデルは、候補領域の切り出しと分類が分離され、推論が遅かった——SSDは候補生成と分類を同じネットワーク内でまとめます。
| 方式 | 推論の流れ | 試験向け |
|---|---|---|
| 二段検出(Faster R-CNN) | 候補領域 → 各候補を分類・位置補正 | 精度重視の系譜 |
| シングルショット(SSD、YOLO) | 特徴マップから一発で箱とクラス | 速度とシンプルさ |
「ショット」は銃の一撃の比喩——画像を何度も別ネットに通さず、1パスで検出リストを出すイメージです。
マルチスケール特徴
SSDの設計の肝は、CNNの複数層——浅い層は解像度が高く細部、深い層は受容野が広く文脈——にそれぞれ検出ヘッドを付けることです。
- 浅い層 — 高解像度特徴 → 小さい物体向き
- 深い層 — 低解像度・大きな受容野 → 大きい物体向き
- デフォルトボックス — 各位置に複数サイズ・縦横比の「仮の箱」を事前配置
- 学習 — 正解に近い箱を当て、位置とクラスを同時に最適化
後発のFPN(Feature Pyramid Network)もマルチスケール特徴の融合を扱いますが、SSDはマルチスケール一発検出の先駆的な成功例として試験に名前が出ます。FPNはモジュール、SSDは検出モデル全体——層を混同しないことが重要です。
Faster R-CNNとの対比
| 観点 | Faster R-CNN | SSD |
|---|---|---|
| 構成 | RPNで候補 → ROIで分類 | 多層特徴から一発検出 |
| 段数 | 二段(候補+検出) | シングルショット |
| マルチスケール | FPN等を組み合わせることも | 設計の中核 |
| 試験 | G-323の代表例 | G-323・TF-121の代表例 |
どちらもCOCOなどのベンチマークで性能が比較されます。試験では速度・精度の数値より、「物体検出モデルの代表名」として覚えるのが先です。
YOLOとの整理
SSDとYOLO(You Only Look Once)は、どちらもシングルショット物体検出の代表です。試験では細かいアーキテクチャ差より、次の共通点が重要です。
- 共通 物体検出タスク。位置(バウンディングボックス)とクラスを同時推定(TF-121)
- 共通 Faster R-CNNと並ぶ代表例(G-323)。BERTではない
- 相違(詳細) グリッド設計・アンカーの置き方・損失関数など実装は異なる——暗記不要なことも
G-324ではYOLO=物体検出、U-Net=セグメンテーションの対比が正解です。SSDも物体検出側に分類します。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| SSD=BERT | 物体検出 vs NLP(G-323、G-335) |
| SSD=FCN/U-Net | 検出(箱) vs セグメンテーション(画素)(G-324) |
| SSD=Solid State Drive | AI文脈ではSingle Shot Detector |
| SSD=FPN | 検出モデル vs 特徴ピラミッド部品 |
| SSD=SLAM | 2D画像検出 vs 位置推定・地図構築 |
| SSD=画像分類だけ | 位置+クラスを同時推定(G-021) |
よくある質問
SSDは何の略ですか?
Single Shot Detector(シングルショットディテクタ)の略です。画像を一度CNNに通すだけで、複数スケールの特徴マップから物体のバウンディングボックスとクラスを同時に推定する物体検出モデルとして知られます。YOLOやFaster R-CNNと並ぶ代表例です。
SSDとFaster R-CNNは同じですか?
同じではありません。どちらも物体検出モデルですが、Faster R-CNNは候補領域を出してから分類する二段構成、SSDは複数層の特徴マップから一発(シングルショット)で検出する方式として整理されます。いずれも物体検出の代表例です。
SSDはSSD(Solid State Drive)ですか?
文脈によります。AI・画像認識の試験ではSSDはSingle Shot Detectorを指すことが多く、物体検出モデルの略称です。ストレージのSolid State Driveとは別物であり、分野と文脈で区別します。