Faster R-CNNとは？領域提案を内蔵する——二段検出を一本化したR-CNNの高速版

Faster R-CNNは、領域提案ネットワーク（RPN）をCNNに組み込んだ二段構成の物体検出モデルです。初期のR-CNNが「外部アルゴリズムで候補を出し、別々に学習する」非効率さを抱えたのに対し、Faster R-CNNは候補生成までニューラルネットの一部に——本記事はアンカーの細部より、「二段検出のどこを一本化したか」に焦点を当てます。

物体検出というタスク

物体検出は、画像のどこに何があるか——バウンディングボックスとクラス——を同時に推定するタスクです（G-316）。画像分類がラベル1つなのに対し、複数物体・複数位置を扱います。

試験ではYOLO、SSD、Faster R-CNNが物体検出の代表例として並びます（G-323、TF-121）。BERTやword2vecはNLPであり、物体検出モデルではありません（G-323、G-335）。

R-CNN系列の進化

Faster R-CNNは、R-CNNファミリーの高速化の到達点として語られます。

世代	課題への応答	試験向けの一言
R-CNN	候補領域ごとにCNNを別々に実行——遅い	二段の原型
Fast R-CNN	特徴共有で検出ヘッドを統合	中間段階（名前の暗記は不要なことも）
Faster R-CNN	RPNで候補生成もCNN内に	領域提案の統合がキーワード
Mask R-CNN	マスク推定を追加	Faster R-CNNの拡張（G-326）

RPNが変えたこと

Region Proposal Network（RPN）は、特徴マップ上で「物体がありそうな矩形候補（アンカー）」を大量に出し、物体らしさのスコアと位置補正を予測します。

特徴抽出 — CNN backbone で画像特徴を得る（FPNと組み合わせることも多い）
RPN — 候補ボックスを生成・選別
検出ヘッド — 各候補のクラス分類と位置の微調整

「候補を出す処理」と「中身を見る処理」が同じネットワーク内で学習できる——これがFaster R-CNNの設計思想です。G-326が示すMask R-CNNは、この土台にマスク用ヘッドを足した拡張です。

二段 vs 一段

方式	流れ	代表
二段（Two-stage）	候補領域 → 分類・位置補正	Faster R-CNN
一段（One-stage）	グリッド等から一発で検出	YOLO、SSD（TF-121）
端から端	領域提案なしのTransformer検出	DETR

二段は一般に精度が高い一方、速度は一段に劣ることが多い——というトレードオフで整理されます。試験では「Faster R-CNN＝YOLO」と答えず、どちらも物体検出の別系譜と区別します。

試験で押さえるポイント

定義 — 領域提案ネット（RPN）を統合した物体検出モデル
タスク — バウンディングボックス＋クラス（G-316）
系譜 — Mask R-CNNの基盤（G-326、TF-124）
代表例 — YOLO・SSD・Faster R-CNNを並べて覚える（G-323）

演習で確認する

G検定：G-323、G-326、TF-121、TF-124

すり替えに注意

誤った説明	正しい理解
Faster R-CNN＝YOLO	二段 vs 一段。どちらも検出
Faster R-CNN＝Mask R-CNN	検出 vs 検出＋マスク
Faster R-CNN＝FCN	物体検出 vs セグメンテーション
Faster R-CNN＝BERT	画像CNN vs NLP（G-323）
RPN＝RNN	Region Proposal vs 再帰型ネット

よくある質問

Faster R-CNNは何をするモデルですか？

画像内の物体の位置（バウンディングボックス）とクラスを推定する物体検出モデルです。領域提案ネットワーク（RPN）をCNNに組み込み、候補領域の生成と検出を効率的に行う二段構成が特徴として知られます。

Faster R-CNNとYOLOは同じですか？

同じではありません。どちらも物体検出モデルですが、Faster R-CNNは候補領域を出してから分類する二段構成、YOLOは一発で検出する単一ショット方式として整理されます。いずれもYOLO・SSD・Faster R-CNNは物体検出の代表例です。

Faster R-CNNとMask R-CNNは同じですか？

同じではありません。Mask R-CNNはFaster R-CNNを拡張し、バウンディングボックスに加えて各インスタンスのマスク（領域）も推定するモデルです。Faster R-CNNは物体検出、Mask R-CNNはインスタンスセグメンテーションも扱います。