モデル・技術

DETRとは?領域提案を捨てた端から端——Transformerが物体検出を一本化する

読み:ディーイートル / 英:DETR(Detection Transformer)

更新日: 読了目安:約6分

DETR(Detection Transformer)は、領域提案(Region Proposal)を挟まず、画像から物体の位置とクラスを一度に予測する物体検出モデルです。Faster R-CNNが「候補領域を出してから分類する」二段構成だったのに対し、DETRはTransformerの注意機構で物体クエリと画像特徴を直接照合——本記事はアーキテクチャの細部より、「端から端(end-to-end)」への転換という試験で効く見方に焦点を当てます。

物体検出というタスク

物体検出は、画像のどこに何があるかを扱うタスクです。画像分類が「画像全体のラベル1つ」を当てるのに対し、物体検出はバウンディングボックス(矩形の位置)とクラスを同時に推定します(G-316)。

評価の共通言語としてCOCOデータセットが広く使われ、検出・セグメンテーションのベンチマークとして参照されます。DETRはこの物体検出の文脈で語られるモデル名です。

パイプラインの転換

従来の代表例と、DETRが変えた点を対比します。

系譜流れのイメージ試験での位置づけ
Faster R-CNN領域提案 → 各候補を分類・位置補正二段構成の代表(G-323
YOLO / SSDグリッドやアンカーから一発で検出単一ショットのCNN系(TF-121
DETR固定数の物体クエリがTransformerで照合領域提案なしの端から端+Transformer

「候補を出す専用モジュール(RPNなど)を設計しなくてよい」——このパイプライン簡素化がDETRの設計思想の核心です。畳み込みそのものではなく、検出の組み立て方が変わったモデルと覚えると、YOLOやR-CNNとのすり替えを防げます。

DETRのざっくり構造

  1. CNNバックボーン — 画像から特徴マップを抽出(CNNの役割はここ)
  2. Transformerエンコーダ — 画像特徴全体に注意を向け、文脈を集約
  3. Transformerデコーダ — 学習可能な物体クエリ(object queries)が特徴と照合
  4. 予測ヘッド — 各クエリからクラスボックス座標を出力

クエリの数は事前に固定され、学習時にはハンガリアンアルゴリズムで予測と正解の対応づけを行う——試験ではアルゴリズム名より「クエリが物体スロットを担う」イメージで十分です。

NLPのBERTLLMが扱うのはテキスト系列ですが、DETRは視覚特徴と空間的位置を対象にTransformerを適用した点で、ドメインが異なります。

YOLO・R-CNN・BERTとの違い

名前タスクDETRとの関係
DETR物体検出——
YOLO物体検出同タスク・別アーキテクチャ(CNN単一ショット)
Faster R-CNN物体検出同タスク・領域提案ありの二段構成
Mask R-CNN検出+マスクインスタンスセグメンテーション拡張(TF-124
BERT自然言語処理物体検出ではない(G-323)
U-Netセグメンテーションピクセル単位の領域推定(G-324

試験で押さえるポイント

  • 定義 — Transformerで端から端の物体検出を行うモデル
  • タスク — 「どこに何があるか」=物体検出(G-316)
  • 対比 — YOLO・Faster R-CNNは検出の別系譜。BERTはNLP(G-323)
  • 誤解回避 — DETR≠画像分類、≠セグメンテーション専用、≠生成AI

演習で確認する

G検定:G-316G-323G-324TF-121

すり替えに注意

誤った説明正しい理解
DETR=BERT物体検出 vs NLP(G-323)
DETR=YOLOどちらも検出だが設計が異なる
DETR=画像分類位置推定が必要な検出タスク
DETR=CNNそのものCNNを含むがTransformer主体の検出モデル名
DETR=生成AI認識(検出)タスク。新規画像生成ではない

よくある質問

DETRは何をするモデルですか?

画像内の物体の位置(バウンディングボックス)とクラスを、領域提案ネットワークを使わずに一度に予測する物体検出モデルです。CNNで特徴を抽出し、Transformerで物体クエリと画像特徴を照合する端から端の設計が特徴です。

DETRとYOLOは同じですか?

いいえ。どちらも物体検出モデルですが、YOLOはCNN中心の単一ショット検出として広く知られ、DETRはTransformerを核にした端から端の検出として位置づけられます。試験では「物体検出モデル」という共通点と、構造・系譜の違いを分けて整理します。

DETRはBERTですか?

いいえ。BERTは自然言語処理向けのTransformer系モデルであり、物体検出専用モデルではありません。DETRは画像認識の物体検出タスク向けです。G-323のように、BERTとYOLO・Faster R-CNNを混同しないことが重要です。