COCO(Common Objects in Context)は、日常の写真に物体の位置・領域・カテゴリなどのラベルが付いた、画像認識の標準ベンチマーク・データセットです。YOLOやFaster R-CNNのようなモデル名ではなく、それらの性能を同じ物差しで測る「共通言語」——本記事は画像枚数の暗記ではなく、「何を測るデータセットか」と試験でのすり替え回避に焦点を当てます。
ベンチマークの役割
機械学習では「精度が高い」と言うために、同じテスト問題でモデルを比較します。画像認識分野では、COCOが長く物体検出・セグメンテーションの代表ベンチマークとして使われてきました。
- 学習データ — モデルがパターンを学ぶための画像とラベル
- 評価データ — 学習に使わなかった画像で性能を測る
- ベンチマーク — 研究コミュニティが共通の評価セットとして採用したデータセット
COCOはアルゴリズムそのものではなく、論文や製品が「COCOで○%」と報告するときの比較基準です。
測るタスクの地図
COCOは複数タスクの評価に使われます。試験ではタスクの定義とセットで整理します。
| タスク | 何を予測するか | 試験の接点 |
|---|---|---|
| 物体検出 | 画像内のどこに何があるか(バウンディングボックス+カテゴリ) | G-316、G-324 |
| セグメンテーション | 画素単位で領域を分類 | TF-122、TF-116 |
| 画像分類 | 画像全体のカテゴリ | CNNの古典タスク |
| キャプション | 画像の説明文 | BLIPなど視覚言語タスク |
物体検出は「どこに何があるか」、セグメンテーションは「各画素がどの領域か」——この違いがG-324のYOLOとU-Netの対比にも現れます。
アノテーションの種類
「Context(文脈)」の名のとおり、COCOは複数物体が共存する日常シーンの画像が多いのが特徴です。
- バウンディングボックス — 矩形で物体の位置を指定(物体検出)
- セグメンテーションマスク — 画素ごとの領域ラベル(セマンティック/インスタンス)
- カテゴリラベル — 人・車・犬など80クラス前後の物体カテゴリ
- キャプション — 画像を説明する英文(一部タスク)
セマンティックセグメンテーションは同じクラス内の個体を区別しない(TF-116)。インスタンスセグメンテーションは個体ごとに分ける——この区別もCOCO文脈でよく出ます。
モデルとの関係
| 名前 | 種類 | COCOとの関係 |
|---|---|---|
| COCO | データセット | 性能を測る物差し |
| YOLO | 物体検出モデル | COCOで検出精度を報告することが多い(G-324) |
| Faster R-CNN | 物体検出モデル | CNNベースの検出パイプライン |
| U-Net | セグメンテーションモデル | 医用画像でも有名。タスクは検出と別(G-324) |
| CLIP | 視覚言語モデル | データセットではない |
試験の誤答では、データセット名をモデル名や損失関数とすり替えるパターンがあります(CTCの誤答に物体検出が混ざる、など)。データ vs アルゴリズムの層を分けて覚えます。
試験で押さえるポイント
- 定義 — 物体検出・セグメンテーションの標準データセット(ベンチマーク)
- 略称 — Common Objects in Context
- 位置づけ — モデルではなく評価・学習用の画像集合
- 関連タスク — 物体検出(G-316)、セグメンテーション(TF-122)
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| COCO=YOLO | データセット vs 物体検出モデル(G-324) |
| COCO=CNN | ベンチマーク vs ネットワーク構造 |
| COCO=セグメンテーション手法 | 評価データ vs U-Net等のモデル |
| COCO=NLPのコーパス | 画像認識 vs テキスト(NLP) |
| COCO=CTC | 画像データ vs 音声系列の損失(G-358のC) |
よくある質問
COCOは何ですか?
Common Objects in Contextの略で、日常シーンの写真に物体の位置や領域などのアノテーションが付いた、画像認識の標準ベンチマークデータセットです。物体検出やセグメンテーションの性能比較に広く使われます。
COCOとYOLOは同じですか?
いいえ。COCOは評価用のデータセット、YOLOは物体検出モデルの名前です。YOLOなどのモデル性能をCOCO上で測る、という関係です(G-324)。
COCOはモデルですか?
いいえ。COCOは学習・評価に使うデータセット(ベンチマーク)です。CNNや物体検出アルゴリズムそのものではありません。