PointNetは、3D点群をそのまま食べる深層学習アーキテクチャです。LiDARが座標付きの点を吐き出すなら、PointNetは「点の並べ順が変わっても同じ答えを返す」読み方——本記事は論文の数式追跡ではなく、並べ替え不変性という設計の核心に焦点を当てます。
点群という入力
点群(Point Cloud)は、3D空間上の点 {(x, y, z)} の集合です。LiDARや深度カメラ、3Dスキャナが典型的な取得元で、自動運転・ロボティクス・測量で広く使われます。
画像は格子状のピクセル——行と列が決まっている——ですが、点群は非構造データです。点の数も順序もサンプルごとに変わり、2D CNNをそのまま当てはめられません。
従来は点群をボクセル(3D格子)や鳥瞰図(BEV)に変換してから畳み込む前処理が一般的でした。PointNetは「変換の手間と情報損失を減らし、点を直接読めないか」という問いへの答えです。
並べ替え不変性の核心
点群の最大の性質は、点の列挙順序に意味がないことです。同じ物体でもスキャン順が変われば点の並びは入れ替わります。ネットワークはこの並べ替えに対して同じ出力を返すべき——これを並べ替え不変性(permutation invariance)と呼びます。
PointNetの基本アイデアは次の流れです。
- 点ごとの変換 — 各点の座標(と法線など)を小さなMLPで特徴ベクトルへ
- 対称な集約 — 全点の特徴を max pooling など順序に依存しない演算で1つのグローバル特徴へ
- 下流タスク — 分類ヘッドや点ごとのラベル付け(PointNet++で局所構造も強化)
試験では数式より、「点の順序が変わっても同じ答えになる設計」という一言が押さえ目標です。
ボクセル・3D CNNとの違い
| 観点 | PointNet | ボクセル + 3D CNN | 3D CNN(動画等) |
|---|---|---|---|
| 入力 | 非構造な点群 | 3D格子へ離散化 | 格子状の3Dボリューム |
| 前処理 | 点をそのまま(正規化はあり) | ボクセル化でメモリ・解像度のトレードオフ | フレーム束・CT断層など |
| 設計の肝 | 並べ替え不変 | 畳み込みの局所性 | 時空の局所パターン |
| 試験の整理 | 点群直接処理の代表 | 3D認識の古典的手法 | 動画・医療ボリューム(G-239) |
NeRFが「座標と視線から色を聞く」新規視点合成なら、PointNetは「点の集合から物体を識別する」認識寄りの系譜です。どちらも3Dですが、タスクと入出力が異なります。
向いているタスク
- 物体分類 点群全体から「椅子」「車」などのラベルを予測
- 点ごとのセグメンテーション 各点に部品ラベル(タイヤ・ボディ等)を付与
- ロボット・自動運転の知覚 LiDAR点群から周囲物体を検出・把握
後継の PointNet++ などは、近傍点の局所構造を階層的に集めることで精度を高めます。試験では細部より「点群を直接扱う深層学習の先駆」として整理すれば十分です。
センサーから認識まで
実務・試験の地図では、層を分けて覚えるとすり替えに強くなります。
| 層 | 例 | 役割 |
|---|---|---|
| センサー | LiDAR、深度カメラ | 3D点群を取得 |
| 前処理 | ノイズ除去、ダウンサンプリング | 点の品質・数を調整 |
| モデル | PointNet、ボクセルCNN | 点群から意味を読む |
| 応用 | 自動運転、ロボット掴み | 検出・追跡・計画へ接続 |
TF-332のように、センサーデータとAIの接点は試験で問われます。LiDARは「何を入力として得るか」、PointNetは「その入力をどう解釈するか」です。
試験で押さえるポイント
- 定義 — 点群を直接処理する深層学習アーキテクチャ
- 核心 — 並べ替え不変性(点の順序に依存しない)
- 対比 — LiDAR=センサー、PointNet=モデル/3D CNN=格子畳み込み
- 用途 — 3D物体分類・点セグメンテーション・自動運転の知覚
- 層 — センサー ≠ 前処理 ≠ ニューラルネット ≠ 応用システム
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| PointNet=LiDAR | モデル vs レーザーセンサー |
| PointNet=3D CNN | 点群直接 vs 格子畳み込み |
| PointNet=2D CNN | 非構造点群 vs 2D画像格子 |
| PointNet=NeRF | 認識 vs 新規視点合成 |
| PointNet=強化学習 | 教師ありの表現学習 vs 報酬で学ぶ枠組み |
| 点群=画像 | 点の集合 vs ピクセル格子(G-021の対比) |
よくある質問
PointNetは何をするアーキテクチャですか?
3D点群(空間上の点の集合)をニューラルネットワークへ直接入力し、物体の分類や点ごとのラベル付け(セグメンテーション)などを行う深層学習の設計です。画像のように格子状のピクセルへ変換せず、点の集合として処理する点が特徴です。
PointNetとLiDARは同じですか?
同じではありません。LiDARはレーザーで距離を測り3D点群を取得するセンサー技術です。PointNetはその点群データを機械学習で解釈するニューラルネットワークのアーキテクチャです。センサーとモデルを混同しないことが重要です。
PointNetと3D CNNは同じですか?
同じではありません。3D CNNはボクセルや動画ボリュームなど格子状の3次元データに畳み込みを適用します。PointNetは非構造な点群をそのまま扱い、点の順序に依存しない(並べ替え不変)設計が核心です。入力の表現とネットワーク構造が異なります。