モデル・技術

Faster R-CNNとは?領域提案を内蔵する——二段検出を一本化したR-CNNの高速版

読み:ファスターアールシーエヌエヌ / 英:Faster R-CNN

更新日: 読了目安:約6分

Faster R-CNNは、領域提案ネットワーク(RPN)CNNに組み込んだ二段構成の物体検出モデルです。初期のR-CNNが「外部アルゴリズムで候補を出し、別々に学習する」非効率さを抱えたのに対し、Faster R-CNNは候補生成までニューラルネットの一部に——本記事はアンカーの細部より、「二段検出のどこを一本化したか」に焦点を当てます。

物体検出というタスク

物体検出は、画像のどこに何があるか——バウンディングボックスとクラス——を同時に推定するタスクです(G-316)。画像分類がラベル1つなのに対し、複数物体・複数位置を扱います。

試験ではYOLO、SSD、Faster R-CNNが物体検出の代表例として並びます(G-323TF-121)。BERTやword2vecはNLPであり、物体検出モデルではありません(G-323、G-335)。

R-CNN系列の進化

Faster R-CNNは、R-CNNファミリーの高速化の到達点として語られます。

世代課題への応答試験向けの一言
R-CNN候補領域ごとにCNNを別々に実行——遅い二段の原型
Fast R-CNN特徴共有で検出ヘッドを統合中間段階(名前の暗記は不要なことも)
Faster R-CNNRPNで候補生成もCNN内に領域提案の統合がキーワード
Mask R-CNNマスク推定を追加Faster R-CNNの拡張(G-326)

RPNが変えたこと

Region Proposal Network(RPN)は、特徴マップ上で「物体がありそうな矩形候補(アンカー)」を大量に出し、物体らしさのスコアと位置補正を予測します。

  1. 特徴抽出CNN backbone で画像特徴を得る(FPNと組み合わせることも多い)
  2. RPN — 候補ボックスを生成・選別
  3. 検出ヘッド — 各候補のクラス分類と位置の微調整

「候補を出す処理」と「中身を見る処理」が同じネットワーク内で学習できる——これがFaster R-CNNの設計思想です。G-326が示すMask R-CNNは、この土台にマスク用ヘッドを足した拡張です。

二段 vs 一段

方式流れ代表
二段(Two-stage)候補領域 → 分類・位置補正Faster R-CNN
一段(One-stage)グリッド等から一発で検出YOLO、SSD(TF-121)
端から端領域提案なしのTransformer検出DETR

二段は一般に精度が高い一方、速度は一段に劣ることが多い——というトレードオフで整理されます。試験では「Faster R-CNN=YOLO」と答えず、どちらも物体検出の別系譜と区別します。

試験で押さえるポイント

  • 定義領域提案ネット(RPN)を統合した物体検出モデル
  • タスク — バウンディングボックス+クラス(G-316)
  • 系譜 — Mask R-CNNの基盤(G-326、TF-124)
  • 代表例 — YOLO・SSD・Faster R-CNNを並べて覚える(G-323)

演習で確認する

G検定:G-323G-326TF-121TF-124

関連:G-316G-335

すり替えに注意

誤った説明正しい理解
Faster R-CNN=YOLO二段 vs 一段。どちらも検出
Faster R-CNN=Mask R-CNN検出 vs 検出+マスク
Faster R-CNN=FCN物体検出 vs セグメンテーション
Faster R-CNN=BERT画像CNN vs NLP(G-323)
RPN=RNNRegion Proposal vs 再帰型ネット

よくある質問

Faster R-CNNは何をするモデルですか?

画像内の物体の位置(バウンディングボックス)とクラスを推定する物体検出モデルです。領域提案ネットワーク(RPN)をCNNに組み込み、候補領域の生成と検出を効率的に行う二段構成が特徴として知られます。

Faster R-CNNとYOLOは同じですか?

同じではありません。どちらも物体検出モデルですが、Faster R-CNNは候補領域を出してから分類する二段構成、YOLOは一発で検出する単一ショット方式として整理されます。いずれもYOLO・SSD・Faster R-CNNは物体検出の代表例です。

Faster R-CNNとMask R-CNNは同じですか?

同じではありません。Mask R-CNNはFaster R-CNNを拡張し、バウンディングボックスに加えて各インスタンスのマスク(領域)も推定するモデルです。Faster R-CNNは物体検出、Mask R-CNNはインスタンスセグメンテーションも扱います。