GoogLeNetとは？並列の窓で見る——複数スケールを一度に畳むInception

GoogLeNetは、Inceptionモジュールを中核とするCNNです。VGGが「同じ3×3を深く積む」なら、GoogLeNetは異なるサイズの窓を並べて同時に見る——本記事は層数の暗記より、「なぜ並列畳み込みが効率化につながるか」に焦点を当てます。

スケールの多様性問題

画像には小さい物体も大きい物体も混在します。受容野が小さいフィルタは細部に、大きいフィルタは広い文脈に強い——どちらか一方だけでは特徴が足りません。

G-321が問うのは、この課題への応答です。後のFPNが検出でマルチスケール特徴をピラミッド化するのも、同じ「スケールの多様性」への別アプローチです。

Inceptionの核心は並列処理です。

試験の正解文は「複数サイズの畳み込みを組み合わせるCNN」（G-321）——Inceptionモジュール＝GoogLeNetの設計思想、とセットで覚えます。

並列に見えて計算が爆発しやすい——そこで1×1畳み込みが効きます。

EfficientNetが深さ・幅・解像度を複合スケールするのは別世代の効率化ですが、GoogLeNetはアーキテクチャ部品（Inception）で効率と多スケールを両立した先駆けとしてCNN史に残ります。

演習で確認する

G検定：G-321、G-319、G-322、TF-119、TF-401

GoogLeNetは何をするCNNですか？

Inceptionモジュールを中核とする画像認識向けCNNです。1×1、3×3、5×5の畳み込みとプーリングを並列に実行し、複数スケールの特徴を同時に捉えながらパラメータ数と計算量を抑える設計として知られます。

GoogLeNetとVGGは同じですか？

同じではありません。VGGは3×3畳み込みを深く積み重ねるシンプルな設計、GoogLeNetはInceptionモジュールで異なるサイズの畳み込みを並列に組み合わせる設計です。いずれも画像認識向けCNNですが、深さの与え方が異なります。

Inceptionモジュールとは何ですか？

複数サイズの畳み込みフィルタとプーリングを並列に適用し、その出力をチャネル方向に結合するCNNの構成ブロックです。GoogLeNetの設計思想の中心であり、多様な受容野の特徴を一度に得るための部品です。