GoogLeNetは、Inceptionモジュールを中核とするCNNです。VGGが「同じ3×3を深く積む」なら、GoogLeNetは異なるサイズの窓を並べて同時に見る——本記事は層数の暗記より、「なぜ並列畳み込みが効率化につながるか」に焦点を当てます。
スケールの多様性問題
画像には小さい物体も大きい物体も混在します。受容野が小さいフィルタは細部に、大きいフィルタは広い文脈に強い——どちらか一方だけでは特徴が足りません。
G-321が問うのは、この課題への応答です。後のFPNが検出でマルチスケール特徴をピラミッド化するのも、同じ「スケールの多様性」への別アプローチです。
Inceptionモジュール
Inceptionの核心は並列処理です。
- 1×1畳み込み — チャネル数を抑えるボトルネックにも
- 3×3畳み込み — 中程度の受容野
- 5×5畳み込み — より広い受容野
- プーリング — 空間情報の要約
- 結合 — 各枝の出力をチャネル方向に連結
試験の正解文は「複数サイズの畳み込みを組み合わせるCNN」(G-321)——Inceptionモジュール=GoogLeNetの設計思想、とセットで覚えます。
効率化の工夫
並列に見えて計算が爆発しやすい——そこで1×1畳み込みが効きます。
| 工夫 | 目的 |
|---|---|
| 1×1ボトルネック | 3×3・5×5の前でチャネルを減らし計算量を抑制 |
| 並列 vs 直列 | 複数スケールを1層で同時に得る |
| パラメータ効率 | 深くしつつ全結合的な肥大を避ける |
EfficientNetが深さ・幅・解像度を複合スケールするのは別世代の効率化ですが、GoogLeNetはアーキテクチャ部品(Inception)で効率と多スケールを両立した先駆けとしてCNN史に残ります。
CNN系譜での位置
| モデル | 設計のキーワード | 試験リンク |
|---|---|---|
| AlexNet | DLブームの契機・ReLU | G-319 |
| VGG | 3×3を深く積む | TF-119 |
| GoogLeNet | Inception・並列多スケール | G-321 |
| ResNet | 残差接続で超深層化 | G-322 |
| DenseNet | 全層密結合 | — |
試験で押さえるポイント
- 定義 — Inceptionモジュールで複数サイズの畳み込みを組み合わせるCNN
- 目的 — 多様なスケールの特徴を効率的に捉える
- 対比 — VGG=直列の3×3、GoogLeNet=並列の多スケール
- すり替え回避 — NLP・物体検出モデル名・GANではない
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| GoogLeNet=VGG | 並列多スケール vs 直列3×3 |
| GoogLeNet=ResNet | Inception vs 残差接続 |
| GoogLeNet=BERT | 画像CNN vs NLP(G-323) |
| GoogLeNet=Faster R-CNN | 分類CNN vs 物体検出 |
| Inception=Transformer | CNN部品 vs 系列Attention |
よくある質問
GoogLeNetは何をするCNNですか?
Inceptionモジュールを中核とする画像認識向けCNNです。1×1、3×3、5×5の畳み込みとプーリングを並列に実行し、複数スケールの特徴を同時に捉えながらパラメータ数と計算量を抑える設計として知られます。
GoogLeNetとVGGは同じですか?
同じではありません。VGGは3×3畳み込みを深く積み重ねるシンプルな設計、GoogLeNetはInceptionモジュールで異なるサイズの畳み込みを並列に組み合わせる設計です。いずれも画像認識向けCNNですが、深さの与え方が異なります。
Inceptionモジュールとは何ですか?
複数サイズの畳み込みフィルタとプーリングを並列に適用し、その出力をチャネル方向に結合するCNNの構成ブロックです。GoogLeNetの設計思想の中心であり、多様な受容野の特徴を一度に得るための部品です。