3D CNNとは？時間軸を加えた第三の畳み込み——動画の立体認識

3D CNN（3D畳み込みニューラルネットワーク）は、CNNの畳み込みを時間軸まで広げたアーキテクチャです。2D CNNが静止画の「高さ×幅」で局所パターンを捉えるのに対し、3D CNNは「高さ×幅×時間」——動きや変化を含む立体——で特徴を抽出します。本記事はカーネルサイズの暗記ではなく、「なぜ動画に第三の次元が要るか」に焦点を当てます。

試験で問われる見方

3D CNN専用の一問一答は少ないですが、CNNの拡張——画像の局所特徴を畳み込みで捉える——という骨格（TF-401、HQ-0298）を時間方向にも適用した、と理解します。

データとモデルの対応——画像→CNN、系列→RNN（G-239）——に加え、動画→3D CNNや動画向け設計が選択肢の一つです。

動画生成AI——新しい映像を作る——（TF-0220）と、3D CNNによる動画認識——既存映像を理解する——は別概念です。

演習で確認する

G検定：TF-401（CNN）、G-239（データとモデル）

関連：G-389（マルチモーダル・動画）

3D CNNとは

3D CNNは、3次元のカーネル（例：高さ×幅×時間の小さな直方体）を入力ボリューム上でスライドさせ、時空の局所パターンを抽出するネットワークです。動画は「フレームの束」——各フレームは2D画像、束全体で時間軸を持つ——として扱われます。

医療画像のボリュームデータ（CT/MRIの3次元断層）にも3D畳み込みが使われます。試験では細部より「時間（または深さ）を含む3次元畳み込み」という一言が押さえ目標です。

第三の次元＝時間

静止画では「エッジがどこにあるか」が重要です。動画では「エッジがどう動くか」も重要になります。

次元	2D CNN	3D CNN
空間（高さ・幅）	◎ 畳み込み	◎ 畳み込み
時間（フレーム間）	フレームごとに別処理が多い	◎ 同じカーネルで同時に
捉えやすいもの	形・テクスチャ	動き・ジェスチャ・変化

例：「手を振る」動作——単一フレームでは手の形だけ、複数フレームの変化で振る動作と識別——という直感が試験向けです。

2D CNNとの対比

方式	考え方	長所・短所（ざっくり）
2D CNN＋後処理	各フレームを2D CNNし、結果を統合	実装は単純。時間の同時関係は弱い
3D CNN	時空をまとめて畳み込み	動きパターンを直接学習。計算・メモリは増えがち
2D+1Dの折衷	空間2Dのあと時間1D	試験範囲外のことも多い。存在は知っておく程度

3D CNNは2D CNNの自然な拡張であり、別物の魔法ではありません。畳み込みの思想——局所性・重み共有・階層——は共通です（G-275）。

動画を扱う三つの道

アプローチ	代表	試験向け
時空畳み込み	3D CNN	動画認識の古典
系列モデル	RNN / LSTM	フレーム特徴の時系列（G-239）
生成	動画生成AI	認識とは別。TF-0220

マルチモーダルAIが動画を統合処理する文脈（G-389）とも接続しますが、3D CNNは深層学習の要素技術としての位置づけです。

向いているタスク

動作認識 歩行・拍手・スポーツプレイの分類
映像検索・要約の特徴抽出 クリップ単位のベクトル化
医療ボリューム 3次元断層からの病変検出

現代の動画生成は拡散モデルなど別系統が主役ですが、理解・認識の土台として3D CNNは試験で問われうる古典です。

すり替えに注意

誤った説明	正しい理解
3D CNN＝動画生成AI	認識 vs 生成（TF-0220）
3D CNN＝2D CNN	時間軸の有無が差分
動画＝RNNのみ	3D CNNも選択肢
3D CNN＝GAN	HQ-0322のすり替えパターン
3D CNN＝LLM	画像・動画の基盤 vs 言語モデル

よくある質問

3D CNNと2D CNNの違いは？

2D CNNは画像の高さ・幅の2次元で畳み込み、3D CNNは時間（フレーム）方向を含む3次元で畳み込みます。静止画向きが2D、動画の時空パターン向きが3D、と整理します。

3D CNN＝動画生成AIですか？

いいえ。3D CNNは主に動画の認識・分類など理解系タスク向けのアーキテクチャです。テキストや画像から動画を生成する動画生成AIとは別概念です。

動画はRNNだけで処理しますか？

いいえ。動画はフレーム列としてRNNで扱う方法もありますが、3D CNNのように時空をまとめて畳み込む方法もあります。データの表現とモデル設計の選択肢の一つです。