Inceptionは、複数サイズの畳み込みを並列に走らせ、多様な受容野の特徴を一度に得るCNNの設計思想です。GoogLeNet(Inception v1)がその最初の実装として試験に出ますが、Inceptionは部品名(モジュール)とファミリー全体——本記事はバージョン暗記より、「なぜフィルタサイズを選ばず並べるのか」と、GoogLeNetとの層の違いに焦点を当てます。
なぜ並列に畳むか
画像認識では、小さなテクスチャと大きな物体全体の両方が手がかりになります。3×3だけ、5×5だけ——どれか一つに固定すると、見落としが生じます。
Inceptionの答えは「全部並べる」です。1×1・3×3・5×5の畳み込みとプーリングを同時に走らせ、チャネル方向に結合する——G-321の正解文「複数サイズの畳み込みを組み合わせる」は、この思想の要約です。
後のFPNが検出でマルチスケール特徴をピラミッド化するのも、同じ課題への別解——Inceptionは1ブロック内でスケールを並べる点が特徴です。
Inceptionモジュールの中身
- 入力 — 前段の特徴マップ
- 並列枝 — 1×1、3×3、5×5畳み込み+プーリング(各枝で特徴抽出)
- 結合 — 各枝の出力をチャネル方向に連結(concatenate)
- 出力 — 多スケール特徴が混ざった特徴マップ
| 枝 | 受容野のイメージ | 捉えやすいもの |
|---|---|---|
| 1×1 | 局所・チャネル混合 | 次元圧縮・線形結合 |
| 3×3 | 中程度 | エッジ・小パーツ |
| 5×5 | やや広い | 大きめのパターン |
| プーリング | 空間要約 | 位置不変な手がかり |
1×1ボトルネックの役割
並列枝を増やすと計算が膨らむ——そこで3×3・5×5の前に1×1畳み込みでチャネルを減らす工夫が入ります。これがInception文脈の「ボトルネック」です。
G-274が問う1×1畳み込みは、空間サイズを保ちつつチャネル方向を混合・圧縮する操作——Inceptionの効率化と直結します。
オートエンコーダのボトルネック(G-311)は潜在次元への情報圧縮——名前は同じでも、Inceptionの1×1は計算削減のための前処理です。
ファミリーとしてのInception
| 名称 | 試験向けの整理 |
|---|---|
| Inception v1 / GoogLeNet | 最初の実装。ILSVRC 2014で話題 |
| Inception v2・v3 | モジュール改良・正規化・分解畳み込みなど |
| Inception v4 | さらに深いInceptionスタック |
| Inception-ResNet | Inception+残差接続のハイブリッド |
試験では個別バージョンの細部より、Inceptionモジュール=多スケール並列畳み込みの部品、GoogLeNet=その代表実装——の二層で覚えると、G-321と用語辞典の両方に効きます。
VGGが「3×3を直列に深く積む」設計(TF-119)なのに対し、Inceptionは幅(並列)でスケールを取る——CNN設計史の分岐点です。
試験で押さえるポイント
- 定義 — 複数サイズの畳み込みを並列に組み合わせるCNN設計
- 部品 — Inceptionモジュール(1×1・3×3・5×5・プーリング→結合)
- 代表 — GoogLeNet=Inception v1
- 効率 — 1×1ボトルネックで計算量を抑える
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| Inception=GoogLeNetのみ | 設計ファミリー vs v1の通称 |
| Inception=Transformer | CNN並列畳み込み vs Attention |
| Inception=物体検出 | 画像分類向けCNN設計(検出はFaster R-CNN等) |
| ボトルネック=オートエンコーダ | 1×1チャネル圧縮 vs 潜在次元圧縮(G-311) |
| Inception=知識獲得のボトルネック | CNN部品 vs エキスパートシステムの課題(G-004) |
よくある質問
Inceptionとは何ですか?
複数サイズの畳み込みフィルタとプーリングを並列に走らせ、出力をチャネル方向に結合するCNNの設計思想です。Inceptionモジュールを積み重ねたモデル群(Inception v1〜v4、Inception-ResNetなど)として知られ、画像認識で多様なスケールの特徴を一度に捉えることを狙います。
InceptionとGoogLeNetは同じですか?
厳密には同じではありません。GoogLeNetはInception v1と呼ばれる最初の実装の通称であり、Inceptionモジュールを採用したCNNの代表例です。Inceptionは設計思想・部品名・モデルファミリー全体を指し、GoogLeNetはその中の一モデル(v1)として整理するのが試験向けです。
Inceptionのボトルネックはオートエンコーダのボトルネックと同じですか?
同じではありません。Inceptionでは1×1畳み込みでチャネル数を一時的に減らし、計算量を抑える工夫をボトルネックと呼びます。オートエンコーダのボトルネックは、入力より低次元の潜在表現へ圧縮する構造を指します。用語が「ボトルネック」を共有しますが、文脈が異なります。