DETRとは？領域提案を捨てた端から端——Transformerが物体検出を一本化する

DETR（Detection Transformer）は、領域提案（Region Proposal）を挟まず、画像から物体の位置とクラスを一度に予測する物体検出モデルです。Faster R-CNNが「候補領域を出してから分類する」二段構成だったのに対し、DETRはTransformerの注意機構で物体クエリと画像特徴を直接照合——本記事はアーキテクチャの細部より、「端から端（end-to-end）」への転換という試験で効く見方に焦点を当てます。

物体検出というタスク

物体検出は、画像のどこに何があるかを扱うタスクです。画像分類が「画像全体のラベル1つ」を当てるのに対し、物体検出はバウンディングボックス（矩形の位置）とクラスを同時に推定します（G-316）。

評価の共通言語としてCOCOデータセットが広く使われ、検出・セグメンテーションのベンチマークとして参照されます。DETRはこの物体検出の文脈で語られるモデル名です。

パイプラインの転換

従来の代表例と、DETRが変えた点を対比します。

系譜	流れのイメージ	試験での位置づけ
Faster R-CNN	領域提案 → 各候補を分類・位置補正	二段構成の代表（G-323）
YOLO / SSD	グリッドやアンカーから一発で検出	単一ショットのCNN系（TF-121）
DETR	固定数の物体クエリがTransformerで照合	領域提案なしの端から端＋Transformer

「候補を出す専用モジュール（RPNなど）を設計しなくてよい」——このパイプライン簡素化がDETRの設計思想の核心です。畳み込みそのものではなく、検出の組み立て方が変わったモデルと覚えると、YOLOやR-CNNとのすり替えを防げます。

DETRのざっくり構造

CNNバックボーン — 画像から特徴マップを抽出（CNNの役割はここ）
Transformerエンコーダ — 画像特徴全体に注意を向け、文脈を集約
Transformerデコーダ — 学習可能な物体クエリ（object queries）が特徴と照合
予測ヘッド — 各クエリからクラスとボックス座標を出力

クエリの数は事前に固定され、学習時にはハンガリアンアルゴリズムで予測と正解の対応づけを行う——試験ではアルゴリズム名より「クエリが物体スロットを担う」イメージで十分です。

NLPのBERTやLLMが扱うのはテキスト系列ですが、DETRは視覚特徴と空間的位置を対象にTransformerを適用した点で、ドメインが異なります。

YOLO・R-CNN・BERTとの違い

名前	タスク	DETRとの関係
DETR	物体検出	——
YOLO	物体検出	同タスク・別アーキテクチャ（CNN単一ショット）
Faster R-CNN	物体検出	同タスク・領域提案ありの二段構成
Mask R-CNN	検出＋マスク	インスタンスセグメンテーション拡張（TF-124）
BERT	自然言語処理	物体検出ではない（G-323）
U-Net	セグメンテーション	ピクセル単位の領域推定（G-324）

試験で押さえるポイント

定義 — Transformerで端から端の物体検出を行うモデル
タスク — 「どこに何があるか」＝物体検出（G-316）
対比 — YOLO・Faster R-CNNは検出の別系譜。BERTはNLP（G-323）
誤解回避 — DETR≠画像分類、≠セグメンテーション専用、≠生成AI

演習で確認する

G検定：G-316、G-323、G-324、TF-121

すり替えに注意

誤った説明	正しい理解
DETR＝BERT	物体検出 vs NLP（G-323）
DETR＝YOLO	どちらも検出だが設計が異なる
DETR＝画像分類	位置推定が必要な検出タスク
DETR＝CNNそのもの	CNNを含むがTransformer主体の検出モデル名
DETR＝生成AI	認識（検出）タスク。新規画像生成ではない

よくある質問

DETRは何をするモデルですか？

画像内の物体の位置（バウンディングボックス）とクラスを、領域提案ネットワークを使わずに一度に予測する物体検出モデルです。CNNで特徴を抽出し、Transformerで物体クエリと画像特徴を照合する端から端の設計が特徴です。

DETRとYOLOは同じですか？

いいえ。どちらも物体検出モデルですが、YOLOはCNN中心の単一ショット検出として広く知られ、DETRはTransformerを核にした端から端の検出として位置づけられます。試験では「物体検出モデル」という共通点と、構造・系譜の違いを分けて整理します。

DETRはBERTですか？

いいえ。BERTは自然言語処理向けのTransformer系モデルであり、物体検出専用モデルではありません。DETRは画像認識の物体検出タスク向けです。G-323のように、BERTとYOLO・Faster R-CNNを混同しないことが重要です。