モデル・技術

Inceptionとは?受容野を並べて選ぶ——CNNに残した並列畳み込みの設計部品

読み:インセプション / 英:Inception

更新日: 読了目安:約6分

Inceptionは、複数サイズの畳み込みを並列に走らせ、多様な受容野の特徴を一度に得るCNN設計思想です。GoogLeNet(Inception v1)がその最初の実装として試験に出ますが、Inceptionは部品名(モジュール)とファミリー全体——本記事はバージョン暗記より、「なぜフィルタサイズを選ばず並べるのか」と、GoogLeNetとの層の違いに焦点を当てます。

なぜ並列に畳むか

画像認識では、小さなテクスチャ大きな物体全体の両方が手がかりになります。3×3だけ、5×5だけ——どれか一つに固定すると、見落としが生じます。

Inceptionの答えは「全部並べる」です。1×1・3×3・5×5の畳み込みとプーリングを同時に走らせ、チャネル方向に結合する——G-321の正解文「複数サイズの畳み込みを組み合わせる」は、この思想の要約です。

後のFPNが検出でマルチスケール特徴をピラミッド化するのも、同じ課題への別解——Inceptionは1ブロック内でスケールを並べる点が特徴です。

Inceptionモジュールの中身

  • 入力 — 前段の特徴マップ
  • 並列枝 — 1×1、3×3、5×5畳み込み+プーリング(各枝で特徴抽出)
  • 結合 — 各枝の出力をチャネル方向に連結(concatenate)
  • 出力 — 多スケール特徴が混ざった特徴マップ
受容野のイメージ捉えやすいもの
1×1局所・チャネル混合次元圧縮・線形結合
3×3中程度エッジ・小パーツ
5×5やや広い大きめのパターン
プーリング空間要約位置不変な手がかり

1×1ボトルネックの役割

並列枝を増やすと計算が膨らむ——そこで3×3・5×5の前に1×1畳み込みでチャネルを減らす工夫が入ります。これがInception文脈の「ボトルネック」です。

G-274が問う1×1畳み込みは、空間サイズを保ちつつチャネル方向を混合・圧縮する操作——Inceptionの効率化と直結します。

オートエンコーダのボトルネック(G-311)は潜在次元への情報圧縮——名前は同じでも、Inceptionの1×1は計算削減のための前処理です。

ファミリーとしてのInception

名称試験向けの整理
Inception v1 / GoogLeNet最初の実装。ILSVRC 2014で話題
Inception v2・v3モジュール改良・正規化・分解畳み込みなど
Inception v4さらに深いInceptionスタック
Inception-ResNetInception+残差接続のハイブリッド

試験では個別バージョンの細部より、Inceptionモジュール=多スケール並列畳み込みの部品GoogLeNet=その代表実装——の二層で覚えると、G-321と用語辞典の両方に効きます。

VGGが「3×3を直列に深く積む」設計(TF-119)なのに対し、Inceptionは幅(並列)でスケールを取る——CNN設計史の分岐点です。

試験で押さえるポイント

  • 定義 — 複数サイズの畳み込みを並列に組み合わせるCNN設計
  • 部品 — Inceptionモジュール(1×1・3×3・5×5・プーリング→結合)
  • 代表 — GoogLeNet=Inception v1
  • 効率 — 1×1ボトルネックで計算量を抑える

演習で確認する

G検定:G-321G-274TF-119G-322TF-401

すり替えに注意

誤った説明正しい理解
Inception=GoogLeNetのみ設計ファミリー vs v1の通称
Inception=TransformerCNN並列畳み込み vs Attention
Inception=物体検出画像分類向けCNN設計(検出はFaster R-CNN等)
ボトルネック=オートエンコーダ1×1チャネル圧縮 vs 潜在次元圧縮(G-311)
Inception=知識獲得のボトルネックCNN部品 vs エキスパートシステムの課題(G-004)

よくある質問

Inceptionとは何ですか?

複数サイズの畳み込みフィルタとプーリングを並列に走らせ、出力をチャネル方向に結合するCNNの設計思想です。Inceptionモジュールを積み重ねたモデル群(Inception v1〜v4、Inception-ResNetなど)として知られ、画像認識で多様なスケールの特徴を一度に捉えることを狙います。

InceptionとGoogLeNetは同じですか?

厳密には同じではありません。GoogLeNetはInception v1と呼ばれる最初の実装の通称であり、Inceptionモジュールを採用したCNNの代表例です。Inceptionは設計思想・部品名・モデルファミリー全体を指し、GoogLeNetはその中の一モデル(v1)として整理するのが試験向けです。

Inceptionのボトルネックはオートエンコーダのボトルネックと同じですか?

同じではありません。Inceptionでは1×1畳み込みでチャネル数を一時的に減らし、計算量を抑える工夫をボトルネックと呼びます。オートエンコーダのボトルネックは、入力より低次元の潜在表現へ圧縮する構造を指します。用語が「ボトルネック」を共有しますが、文脈が異なります。