モデル・技術

GoogLeNetとは?並列の窓で見る——複数スケールを一度に畳むInception

読み:グーグルネット / 英:GoogLeNet(Inception v1)

更新日: 読了目安:約6分

GoogLeNetは、Inceptionモジュールを中核とするCNNです。VGGが「同じ3×3を深く積む」なら、GoogLeNetは異なるサイズの窓を並べて同時に見る——本記事は層数の暗記より、「なぜ並列畳み込みが効率化につながるか」に焦点を当てます。

スケールの多様性問題

画像には小さい物体大きい物体も混在します。受容野が小さいフィルタは細部に、大きいフィルタは広い文脈に強い——どちらか一方だけでは特徴が足りません。

G-321が問うのは、この課題への応答です。後のFPNが検出でマルチスケール特徴をピラミッド化するのも、同じ「スケールの多様性」への別アプローチです。

Inceptionモジュール

Inceptionの核心は並列処理です。

  1. 1×1畳み込み — チャネル数を抑えるボトルネックにも
  2. 3×3畳み込み — 中程度の受容野
  3. 5×5畳み込み — より広い受容野
  4. プーリング — 空間情報の要約
  5. 結合 — 各枝の出力をチャネル方向に連結

試験の正解文は「複数サイズの畳み込みを組み合わせるCNN」(G-321)——Inceptionモジュール=GoogLeNetの設計思想、とセットで覚えます。

効率化の工夫

並列に見えて計算が爆発しやすい——そこで1×1畳み込みが効きます。

工夫目的
1×1ボトルネック3×3・5×5の前でチャネルを減らし計算量を抑制
並列 vs 直列複数スケールを1層で同時に得る
パラメータ効率深くしつつ全結合的な肥大を避ける

EfficientNetが深さ・幅・解像度を複合スケールするのは別世代の効率化ですが、GoogLeNetはアーキテクチャ部品(Inception)で効率と多スケールを両立した先駆けとしてCNN史に残ります。

CNN系譜での位置

モデル設計のキーワード試験リンク
AlexNetDLブームの契機・ReLUG-319
VGG3×3を深く積むTF-119
GoogLeNetInception・並列多スケールG-321
ResNet残差接続で超深層化G-322
DenseNet全層密結合

試験で押さえるポイント

  • 定義Inceptionモジュールで複数サイズの畳み込みを組み合わせるCNN
  • 目的 — 多様なスケールの特徴を効率的に捉える
  • 対比 — VGG=直列の3×3、GoogLeNet=並列の多スケール
  • すり替え回避 — NLP・物体検出モデル名・GANではない

演習で確認する

G検定:G-321G-319G-322TF-119TF-401

すり替えに注意

誤った説明正しい理解
GoogLeNet=VGG並列多スケール vs 直列3×3
GoogLeNet=ResNetInception vs 残差接続
GoogLeNet=BERT画像CNN vs NLP(G-323)
GoogLeNet=Faster R-CNN分類CNN vs 物体検出
Inception=TransformerCNN部品 vs 系列Attention

よくある質問

GoogLeNetは何をするCNNですか?

Inceptionモジュールを中核とする画像認識向けCNNです。1×1、3×3、5×5の畳み込みとプーリングを並列に実行し、複数スケールの特徴を同時に捉えながらパラメータ数と計算量を抑える設計として知られます。

GoogLeNetとVGGは同じですか?

同じではありません。VGGは3×3畳み込みを深く積み重ねるシンプルな設計、GoogLeNetはInceptionモジュールで異なるサイズの畳み込みを並列に組み合わせる設計です。いずれも画像認識向けCNNですが、深さの与え方が異なります。

Inceptionモジュールとは何ですか?

複数サイズの畳み込みフィルタとプーリングを並列に適用し、その出力をチャネル方向に結合するCNNの構成ブロックです。GoogLeNetの設計思想の中心であり、多様な受容野の特徴を一度に得るための部品です。