モデル・技術

3D CNNとは?時間軸を加えた第三の畳み込み——動画の立体認識

読み:すりーでぃー しーえぬえぬ / 英:3D CNN(3D Convolutional Network)

更新日: 読了目安:約6分

3D CNN(3D畳み込みニューラルネットワーク)は、CNNの畳み込みを時間軸まで広げたアーキテクチャです。2D CNNが静止画の「高さ×幅」で局所パターンを捉えるのに対し、3D CNNは「高さ×幅×時間」——動きや変化を含む立体——で特徴を抽出します。本記事はカーネルサイズの暗記ではなく、「なぜ動画に第三の次元が要るか」に焦点を当てます。

試験で問われる見方

3D CNN専用の一問一答は少ないですが、CNNの拡張——画像の局所特徴を畳み込みで捉える——という骨格(TF-401HQ-0298)を時間方向にも適用した、と理解します。

データとモデルの対応——画像→CNN、系列→RNNG-239)——に加え、動画→3D CNNや動画向け設計が選択肢の一つです。

動画生成AI——新しい映像を作る——(TF-0220)と、3D CNNによる動画認識——既存映像を理解する——は別概念です。

3D CNNとは

3D CNNは、3次元のカーネル(例:高さ×幅×時間の小さな直方体)を入力ボリューム上でスライドさせ、時空の局所パターンを抽出するネットワークです。動画は「フレームの束」——各フレームは2D画像、束全体で時間軸を持つ——として扱われます。

医療画像のボリュームデータ(CT/MRIの3次元断層)にも3D畳み込みが使われます。試験では細部より「時間(または深さ)を含む3次元畳み込み」という一言が押さえ目標です。

第三の次元=時間

静止画では「エッジがどこにあるか」が重要です。動画では「エッジがどう動くか」も重要になります。

次元2D CNN3D CNN
空間(高さ・幅)◎ 畳み込み◎ 畳み込み
時間(フレーム間)フレームごとに別処理が多い◎ 同じカーネルで同時に
捉えやすいもの形・テクスチャ動き・ジェスチャ・変化

例:「手を振る」動作——単一フレームでは手の形だけ、複数フレームの変化で振る動作と識別——という直感が試験向けです。

2D CNNとの対比

方式考え方長所・短所(ざっくり)
2D CNN+後処理各フレームを2D CNNし、結果を統合実装は単純。時間の同時関係は弱い
3D CNN時空をまとめて畳み込み動きパターンを直接学習。計算・メモリは増えがち
2D+1Dの折衷空間2Dのあと時間1D試験範囲外のことも多い。存在は知っておく程度

3D CNNは2D CNNの自然な拡張であり、別物の魔法ではありません。畳み込みの思想——局所性・重み共有・階層——は共通です(G-275)。

動画を扱う三つの道

アプローチ代表試験向け
時空畳み込み3D CNN動画認識の古典
系列モデルRNN / LSTMフレーム特徴の時系列(G-239)
生成動画生成AI認識とは別。TF-0220

マルチモーダルAIが動画を統合処理する文脈(G-389)とも接続しますが、3D CNNは深層学習の要素技術としての位置づけです。

向いているタスク

  • 動作認識 歩行・拍手・スポーツプレイの分類
  • 映像検索・要約の特徴抽出 クリップ単位のベクトル化
  • 医療ボリューム 3次元断層からの病変検出

現代の動画生成は拡散モデルなど別系統が主役ですが、理解・認識の土台として3D CNNは試験で問われうる古典です。

すり替えに注意

誤った説明正しい理解
3D CNN=動画生成AI認識 vs 生成(TF-0220)
3D CNN=2D CNN時間軸の有無が差分
動画=RNNのみ3D CNNも選択肢
3D CNN=GANHQ-0322のすり替えパターン
3D CNN=LLM画像・動画の基盤 vs 言語モデル

よくある質問

3D CNNと2D CNNの違いは?

2D CNNは画像の高さ・幅の2次元で畳み込み、3D CNNは時間(フレーム)方向を含む3次元で畳み込みます。静止画向きが2D、動画の時空パターン向きが3D、と整理します。

3D CNN=動画生成AIですか?

いいえ。3D CNNは主に動画の認識・分類など理解系タスク向けのアーキテクチャです。テキストや画像から動画を生成する動画生成AIとは別概念です。

動画はRNNだけで処理しますか?

いいえ。動画はフレーム列としてRNNで扱う方法もありますが、3D CNNのように時空をまとめて畳み込む方法もあります。データの表現とモデル設計の選択肢の一つです。