3D CNN(3D畳み込みニューラルネットワーク)は、CNNの畳み込みを時間軸まで広げたアーキテクチャです。2D CNNが静止画の「高さ×幅」で局所パターンを捉えるのに対し、3D CNNは「高さ×幅×時間」——動きや変化を含む立体——で特徴を抽出します。本記事はカーネルサイズの暗記ではなく、「なぜ動画に第三の次元が要るか」に焦点を当てます。
試験で問われる見方
3D CNN専用の一問一答は少ないですが、CNNの拡張——画像の局所特徴を畳み込みで捉える——という骨格(TF-401、HQ-0298)を時間方向にも適用した、と理解します。
データとモデルの対応——画像→CNN、系列→RNN(G-239)——に加え、動画→3D CNNや動画向け設計が選択肢の一つです。
動画生成AI——新しい映像を作る——(TF-0220)と、3D CNNによる動画認識——既存映像を理解する——は別概念です。
3D CNNとは
3D CNNは、3次元のカーネル(例:高さ×幅×時間の小さな直方体)を入力ボリューム上でスライドさせ、時空の局所パターンを抽出するネットワークです。動画は「フレームの束」——各フレームは2D画像、束全体で時間軸を持つ——として扱われます。
医療画像のボリュームデータ(CT/MRIの3次元断層)にも3D畳み込みが使われます。試験では細部より「時間(または深さ)を含む3次元畳み込み」という一言が押さえ目標です。
第三の次元=時間
静止画では「エッジがどこにあるか」が重要です。動画では「エッジがどう動くか」も重要になります。
| 次元 | 2D CNN | 3D CNN |
|---|---|---|
| 空間(高さ・幅) | ◎ 畳み込み | ◎ 畳み込み |
| 時間(フレーム間) | フレームごとに別処理が多い | ◎ 同じカーネルで同時に |
| 捉えやすいもの | 形・テクスチャ | 動き・ジェスチャ・変化 |
例:「手を振る」動作——単一フレームでは手の形だけ、複数フレームの変化で振る動作と識別——という直感が試験向けです。
2D CNNとの対比
| 方式 | 考え方 | 長所・短所(ざっくり) |
|---|---|---|
| 2D CNN+後処理 | 各フレームを2D CNNし、結果を統合 | 実装は単純。時間の同時関係は弱い |
| 3D CNN | 時空をまとめて畳み込み | 動きパターンを直接学習。計算・メモリは増えがち |
| 2D+1Dの折衷 | 空間2Dのあと時間1D | 試験範囲外のことも多い。存在は知っておく程度 |
3D CNNは2D CNNの自然な拡張であり、別物の魔法ではありません。畳み込みの思想——局所性・重み共有・階層——は共通です(G-275)。
動画を扱う三つの道
| アプローチ | 代表 | 試験向け |
|---|---|---|
| 時空畳み込み | 3D CNN | 動画認識の古典 |
| 系列モデル | RNN / LSTM | フレーム特徴の時系列(G-239) |
| 生成 | 動画生成AI | 認識とは別。TF-0220 |
マルチモーダルAIが動画を統合処理する文脈(G-389)とも接続しますが、3D CNNは深層学習の要素技術としての位置づけです。
向いているタスク
- 動作認識 歩行・拍手・スポーツプレイの分類
- 映像検索・要約の特徴抽出 クリップ単位のベクトル化
- 医療ボリューム 3次元断層からの病変検出
現代の動画生成は拡散モデルなど別系統が主役ですが、理解・認識の土台として3D CNNは試験で問われうる古典です。
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| 3D CNN=動画生成AI | 認識 vs 生成(TF-0220) |
| 3D CNN=2D CNN | 時間軸の有無が差分 |
| 動画=RNNのみ | 3D CNNも選択肢 |
| 3D CNN=GAN | HQ-0322のすり替えパターン |
| 3D CNN=LLM | 画像・動画の基盤 vs 言語モデル |
よくある質問
3D CNNと2D CNNの違いは?
2D CNNは画像の高さ・幅の2次元で畳み込み、3D CNNは時間(フレーム)方向を含む3次元で畳み込みます。静止画向きが2D、動画の時空パターン向きが3D、と整理します。
3D CNN=動画生成AIですか?
いいえ。3D CNNは主に動画の認識・分類など理解系タスク向けのアーキテクチャです。テキストや画像から動画を生成する動画生成AIとは別概念です。
動画はRNNだけで処理しますか?
いいえ。動画はフレーム列としてRNNで扱う方法もありますが、3D CNNのように時空をまとめて畳み込む方法もあります。データの表現とモデル設計の選択肢の一つです。