Faster R-CNNは、領域提案ネットワーク(RPN)をCNNに組み込んだ二段構成の物体検出モデルです。初期のR-CNNが「外部アルゴリズムで候補を出し、別々に学習する」非効率さを抱えたのに対し、Faster R-CNNは候補生成までニューラルネットの一部に——本記事はアンカーの細部より、「二段検出のどこを一本化したか」に焦点を当てます。
物体検出というタスク
物体検出は、画像のどこに何があるか——バウンディングボックスとクラス——を同時に推定するタスクです(G-316)。画像分類がラベル1つなのに対し、複数物体・複数位置を扱います。
試験ではYOLO、SSD、Faster R-CNNが物体検出の代表例として並びます(G-323、TF-121)。BERTやword2vecはNLPであり、物体検出モデルではありません(G-323、G-335)。
R-CNN系列の進化
Faster R-CNNは、R-CNNファミリーの高速化の到達点として語られます。
| 世代 | 課題への応答 | 試験向けの一言 |
|---|---|---|
| R-CNN | 候補領域ごとにCNNを別々に実行——遅い | 二段の原型 |
| Fast R-CNN | 特徴共有で検出ヘッドを統合 | 中間段階(名前の暗記は不要なことも) |
| Faster R-CNN | RPNで候補生成もCNN内に | 領域提案の統合がキーワード |
| Mask R-CNN | マスク推定を追加 | Faster R-CNNの拡張(G-326) |
RPNが変えたこと
Region Proposal Network(RPN)は、特徴マップ上で「物体がありそうな矩形候補(アンカー)」を大量に出し、物体らしさのスコアと位置補正を予測します。
「候補を出す処理」と「中身を見る処理」が同じネットワーク内で学習できる——これがFaster R-CNNの設計思想です。G-326が示すMask R-CNNは、この土台にマスク用ヘッドを足した拡張です。
二段 vs 一段
| 方式 | 流れ | 代表 |
|---|---|---|
| 二段(Two-stage) | 候補領域 → 分類・位置補正 | Faster R-CNN |
| 一段(One-stage) | グリッド等から一発で検出 | YOLO、SSD(TF-121) |
| 端から端 | 領域提案なしのTransformer検出 | DETR |
二段は一般に精度が高い一方、速度は一段に劣ることが多い——というトレードオフで整理されます。試験では「Faster R-CNN=YOLO」と答えず、どちらも物体検出の別系譜と区別します。
試験で押さえるポイント
- 定義 — 領域提案ネット(RPN)を統合した物体検出モデル
- タスク — バウンディングボックス+クラス(G-316)
- 系譜 — Mask R-CNNの基盤(G-326、TF-124)
- 代表例 — YOLO・SSD・Faster R-CNNを並べて覚える(G-323)
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| Faster R-CNN=YOLO | 二段 vs 一段。どちらも検出 |
| Faster R-CNN=Mask R-CNN | 検出 vs 検出+マスク |
| Faster R-CNN=FCN | 物体検出 vs セグメンテーション |
| Faster R-CNN=BERT | 画像CNN vs NLP(G-323) |
| RPN=RNN | Region Proposal vs 再帰型ネット |
よくある質問
Faster R-CNNは何をするモデルですか?
画像内の物体の位置(バウンディングボックス)とクラスを推定する物体検出モデルです。領域提案ネットワーク(RPN)をCNNに組み込み、候補領域の生成と検出を効率的に行う二段構成が特徴として知られます。
Faster R-CNNとYOLOは同じですか?
同じではありません。どちらも物体検出モデルですが、Faster R-CNNは候補領域を出してから分類する二段構成、YOLOは一発で検出する単一ショット方式として整理されます。いずれもYOLO・SSD・Faster R-CNNは物体検出の代表例です。
Faster R-CNNとMask R-CNNは同じですか?
同じではありません。Mask R-CNNはFaster R-CNNを拡張し、バウンディングボックスに加えて各インスタンスのマスク(領域)も推定するモデルです。Faster R-CNNは物体検出、Mask R-CNNはインスタンスセグメンテーションも扱います。