モデル・技術

COCOとは?物体検出の共通言語——標準データセットが測るもの

読み:ここ / 英:COCO(Common Objects in Context/MS COCO)

更新日: 読了目安:約6分

COCO(Common Objects in Context)は、日常の写真に物体の位置・領域・カテゴリなどのラベルが付いた、画像認識の標準ベンチマーク・データセットです。YOLOやFaster R-CNNのようなモデル名ではなく、それらの性能を同じ物差しで測る「共通言語」——本記事は画像枚数の暗記ではなく、「何を測るデータセットか」と試験でのすり替え回避に焦点を当てます。

ベンチマークの役割

機械学習では「精度が高い」と言うために、同じテスト問題でモデルを比較します。画像認識分野では、COCOが長く物体検出・セグメンテーションの代表ベンチマークとして使われてきました。

  • 学習データ — モデルがパターンを学ぶための画像とラベル
  • 評価データ — 学習に使わなかった画像で性能を測る
  • ベンチマーク — 研究コミュニティが共通の評価セットとして採用したデータセット

COCOはアルゴリズムそのものではなく、論文や製品が「COCOで○%」と報告するときの比較基準です。

測るタスクの地図

COCOは複数タスクの評価に使われます。試験ではタスクの定義とセットで整理します。

タスク何を予測するか試験の接点
物体検出画像内のどこに何があるか(バウンディングボックス+カテゴリ)G-316G-324
セグメンテーション画素単位で領域を分類TF-122TF-116
画像分類画像全体のカテゴリCNNの古典タスク
キャプション画像の説明文BLIPなど視覚言語タスク

物体検出は「どこに何があるか」、セグメンテーションは「各画素がどの領域か」——この違いがG-324のYOLOとU-Netの対比にも現れます。

アノテーションの種類

「Context(文脈)」の名のとおり、COCOは複数物体が共存する日常シーンの画像が多いのが特徴です。

  • バウンディングボックス — 矩形で物体の位置を指定(物体検出)
  • セグメンテーションマスク — 画素ごとの領域ラベル(セマンティック/インスタンス)
  • カテゴリラベル — 人・車・犬など80クラス前後の物体カテゴリ
  • キャプション — 画像を説明する英文(一部タスク)

セマンティックセグメンテーションは同じクラス内の個体を区別しない(TF-116)。インスタンスセグメンテーションは個体ごとに分ける——この区別もCOCO文脈でよく出ます。

モデルとの関係

名前種類COCOとの関係
COCOデータセット性能を測る物差し
YOLO物体検出モデルCOCOで検出精度を報告することが多い(G-324)
Faster R-CNN物体検出モデルCNNベースの検出パイプライン
U-Netセグメンテーションモデル医用画像でも有名。タスクは検出と別(G-324)
CLIP視覚言語モデルデータセットではない

試験の誤答では、データセット名をモデル名損失関数とすり替えるパターンがあります(CTCの誤答に物体検出が混ざる、など)。データ vs アルゴリズムの層を分けて覚えます。

試験で押さえるポイント

  • 定義 — 物体検出・セグメンテーションの標準データセット(ベンチマーク)
  • 略称 — Common Objects in Context
  • 位置づけ — モデルではなく評価・学習用の画像集合
  • 関連タスク — 物体検出(G-316)、セグメンテーション(TF-122)

演習で確認する

G検定:G-316G-324TF-122TF-116G-318

すり替えに注意

誤った説明正しい理解
COCO=YOLOデータセット vs 物体検出モデル(G-324)
COCO=CNNベンチマーク vs ネットワーク構造
COCO=セグメンテーション手法評価データ vs U-Net等のモデル
COCO=NLPのコーパス画像認識 vs テキスト(NLP
COCO=CTC画像データ vs 音声系列の損失(G-358のC)

よくある質問

COCOは何ですか?

Common Objects in Contextの略で、日常シーンの写真に物体の位置や領域などのアノテーションが付いた、画像認識の標準ベンチマークデータセットです。物体検出やセグメンテーションの性能比較に広く使われます。

COCOとYOLOは同じですか?

いいえ。COCOは評価用のデータセット、YOLOは物体検出モデルの名前です。YOLOなどのモデル性能をCOCO上で測る、という関係です(G-324)。

COCOはモデルですか?

いいえ。COCOは学習・評価に使うデータセット(ベンチマーク)です。CNNや物体検出アルゴリズムそのものではありません。