DETR(Detection Transformer)は、領域提案(Region Proposal)を挟まず、画像から物体の位置とクラスを一度に予測する物体検出モデルです。Faster R-CNNが「候補領域を出してから分類する」二段構成だったのに対し、DETRはTransformerの注意機構で物体クエリと画像特徴を直接照合——本記事はアーキテクチャの細部より、「端から端(end-to-end)」への転換という試験で効く見方に焦点を当てます。
物体検出というタスク
物体検出は、画像のどこに何があるかを扱うタスクです。画像分類が「画像全体のラベル1つ」を当てるのに対し、物体検出はバウンディングボックス(矩形の位置)とクラスを同時に推定します(G-316)。
評価の共通言語としてCOCOデータセットが広く使われ、検出・セグメンテーションのベンチマークとして参照されます。DETRはこの物体検出の文脈で語られるモデル名です。
パイプラインの転換
従来の代表例と、DETRが変えた点を対比します。
| 系譜 | 流れのイメージ | 試験での位置づけ |
|---|---|---|
| Faster R-CNN | 領域提案 → 各候補を分類・位置補正 | 二段構成の代表(G-323) |
| YOLO / SSD | グリッドやアンカーから一発で検出 | 単一ショットのCNN系(TF-121) |
| DETR | 固定数の物体クエリがTransformerで照合 | 領域提案なしの端から端+Transformer |
「候補を出す専用モジュール(RPNなど)を設計しなくてよい」——このパイプライン簡素化がDETRの設計思想の核心です。畳み込みそのものではなく、検出の組み立て方が変わったモデルと覚えると、YOLOやR-CNNとのすり替えを防げます。
DETRのざっくり構造
- CNNバックボーン — 画像から特徴マップを抽出(CNNの役割はここ)
- Transformerエンコーダ — 画像特徴全体に注意を向け、文脈を集約
- Transformerデコーダ — 学習可能な物体クエリ(object queries)が特徴と照合
- 予測ヘッド — 各クエリからクラスとボックス座標を出力
クエリの数は事前に固定され、学習時にはハンガリアンアルゴリズムで予測と正解の対応づけを行う——試験ではアルゴリズム名より「クエリが物体スロットを担う」イメージで十分です。
NLPのBERTやLLMが扱うのはテキスト系列ですが、DETRは視覚特徴と空間的位置を対象にTransformerを適用した点で、ドメインが異なります。
YOLO・R-CNN・BERTとの違い
| 名前 | タスク | DETRとの関係 |
|---|---|---|
| DETR | 物体検出 | —— |
| YOLO | 物体検出 | 同タスク・別アーキテクチャ(CNN単一ショット) |
| Faster R-CNN | 物体検出 | 同タスク・領域提案ありの二段構成 |
| Mask R-CNN | 検出+マスク | インスタンスセグメンテーション拡張(TF-124) |
| BERT | 自然言語処理 | 物体検出ではない(G-323) |
| U-Net | セグメンテーション | ピクセル単位の領域推定(G-324) |
試験で押さえるポイント
- 定義 — Transformerで端から端の物体検出を行うモデル
- タスク — 「どこに何があるか」=物体検出(G-316)
- 対比 — YOLO・Faster R-CNNは検出の別系譜。BERTはNLP(G-323)
- 誤解回避 — DETR≠画像分類、≠セグメンテーション専用、≠生成AI
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| DETR=BERT | 物体検出 vs NLP(G-323) |
| DETR=YOLO | どちらも検出だが設計が異なる |
| DETR=画像分類 | 位置推定が必要な検出タスク |
| DETR=CNNそのもの | CNNを含むがTransformer主体の検出モデル名 |
| DETR=生成AI | 認識(検出)タスク。新規画像生成ではない |
よくある質問
DETRは何をするモデルですか?
画像内の物体の位置(バウンディングボックス)とクラスを、領域提案ネットワークを使わずに一度に予測する物体検出モデルです。CNNで特徴を抽出し、Transformerで物体クエリと画像特徴を照合する端から端の設計が特徴です。
DETRとYOLOは同じですか?
いいえ。どちらも物体検出モデルですが、YOLOはCNN中心の単一ショット検出として広く知られ、DETRはTransformerを核にした端から端の検出として位置づけられます。試験では「物体検出モデル」という共通点と、構造・系譜の違いを分けて整理します。
DETRはBERTですか?
いいえ。BERTは自然言語処理向けのTransformer系モデルであり、物体検出専用モデルではありません。DETRは画像認識の物体検出タスク向けです。G-323のように、BERTとYOLO・Faster R-CNNを混同しないことが重要です。