COCOとは？物体検出の共通言語——標準データセットが測るもの

COCO（Common Objects in Context）は、日常の写真に物体の位置・領域・カテゴリなどのラベルが付いた、画像認識の標準ベンチマーク・データセットです。YOLOやFaster R-CNNのようなモデル名ではなく、それらの性能を同じ物差しで測る「共通言語」——本記事は画像枚数の暗記ではなく、「何を測るデータセットか」と試験でのすり替え回避に焦点を当てます。

ベンチマークの役割

機械学習では「精度が高い」と言うために、同じテスト問題でモデルを比較します。画像認識分野では、COCOが長く物体検出・セグメンテーションの代表ベンチマークとして使われてきました。

学習データ — モデルがパターンを学ぶための画像とラベル
評価データ — 学習に使わなかった画像で性能を測る
ベンチマーク — 研究コミュニティが共通の評価セットとして採用したデータセット

COCOはアルゴリズムそのものではなく、論文や製品が「COCOで○%」と報告するときの比較基準です。

測るタスクの地図

COCOは複数タスクの評価に使われます。試験ではタスクの定義とセットで整理します。

タスク	何を予測するか	試験の接点
物体検出	画像内のどこに何があるか（バウンディングボックス＋カテゴリ）	G-316、G-324
セグメンテーション	画素単位で領域を分類	TF-122、TF-116
画像分類	画像全体のカテゴリ	CNNの古典タスク
キャプション	画像の説明文	BLIPなど視覚言語タスク

物体検出は「どこに何があるか」、セグメンテーションは「各画素がどの領域か」——この違いがG-324のYOLOとU-Netの対比にも現れます。

アノテーションの種類

「Context（文脈）」の名のとおり、COCOは複数物体が共存する日常シーンの画像が多いのが特徴です。

バウンディングボックス — 矩形で物体の位置を指定（物体検出）
セグメンテーションマスク — 画素ごとの領域ラベル（セマンティック／インスタンス）
カテゴリラベル — 人・車・犬など80クラス前後の物体カテゴリ
キャプション — 画像を説明する英文（一部タスク）

セマンティックセグメンテーションは同じクラス内の個体を区別しない（TF-116）。インスタンスセグメンテーションは個体ごとに分ける——この区別もCOCO文脈でよく出ます。

モデルとの関係

名前	種類	COCOとの関係
COCO	データセット	性能を測る物差し
YOLO	物体検出モデル	COCOで検出精度を報告することが多い（G-324）
Faster R-CNN	物体検出モデル	CNNベースの検出パイプライン
U-Net	セグメンテーションモデル	医用画像でも有名。タスクは検出と別（G-324）
CLIP	視覚言語モデル	データセットではない

試験の誤答では、データセット名をモデル名や損失関数とすり替えるパターンがあります（CTCの誤答に物体検出が混ざる、など）。データ vs アルゴリズムの層を分けて覚えます。

試験で押さえるポイント

定義 — 物体検出・セグメンテーションの標準データセット（ベンチマーク）
略称 — Common Objects in Context
位置づけ — モデルではなく評価・学習用の画像集合
関連タスク — 物体検出（G-316）、セグメンテーション（TF-122）

演習で確認する

G検定：G-316、G-324、TF-122、TF-116、G-318

すり替えに注意

誤った説明	正しい理解
COCO＝YOLO	データセット vs 物体検出モデル（G-324）
COCO＝CNN	ベンチマーク vs ネットワーク構造
COCO＝セグメンテーション手法	評価データ vs U-Net等のモデル
COCO＝NLPのコーパス	画像認識 vs テキスト（NLP）
COCO＝CTC	画像データ vs 音声系列の損失（G-358のC）

よくある質問

COCOは何ですか？

Common Objects in Contextの略で、日常シーンの写真に物体の位置や領域などのアノテーションが付いた、画像認識の標準ベンチマークデータセットです。物体検出やセグメンテーションの性能比較に広く使われます。

COCOとYOLOは同じですか？

いいえ。COCOは評価用のデータセット、YOLOは物体検出モデルの名前です。YOLOなどのモデル性能をCOCO上で測る、という関係です（G-324）。

COCOはモデルですか？

いいえ。COCOは学習・評価に使うデータセット（ベンチマーク）です。CNNや物体検出アルゴリズムそのものではありません。