PointNetとは？並べ替えに強い——点群をそのまま読む3D認識

PointNetは、3D点群をそのまま食べる深層学習アーキテクチャです。LiDARが座標付きの点を吐き出すなら、PointNetは「点の並べ順が変わっても同じ答えを返す」読み方——本記事は論文の数式追跡ではなく、並べ替え不変性という設計の核心に焦点を当てます。

点群という入力

点群（Point Cloud）は、3D空間上の点 {(x, y, z)} の集合です。LiDARや深度カメラ、3Dスキャナが典型的な取得元で、自動運転・ロボティクス・測量で広く使われます。

画像は格子状のピクセル——行と列が決まっている——ですが、点群は非構造データです。点の数も順序もサンプルごとに変わり、2D CNNをそのまま当てはめられません。

従来は点群をボクセル（3D格子）や鳥瞰図（BEV）に変換してから畳み込む前処理が一般的でした。PointNetは「変換の手間と情報損失を減らし、点を直接読めないか」という問いへの答えです。

点群の最大の性質は、点の列挙順序に意味がないことです。同じ物体でもスキャン順が変われば点の並びは入れ替わります。ネットワークはこの並べ替えに対して同じ出力を返すべき——これを並べ替え不変性（permutation invariance）と呼びます。

PointNetの基本アイデアは次の流れです。

試験では数式より、「点の順序が変わっても同じ答えになる設計」という一言が押さえ目標です。

観点	PointNet	ボクセル + 3D CNN	3D CNN（動画等）
入力	非構造な点群	3D格子へ離散化	格子状の3Dボリューム
前処理	点をそのまま（正規化はあり）	ボクセル化でメモリ・解像度のトレードオフ	フレーム束・CT断層など
設計の肝	並べ替え不変	畳み込みの局所性	時空の局所パターン
試験の整理	点群直接処理の代表	3D認識の古典的手法	動画・医療ボリューム（G-239）

NeRFが「座標と視線から色を聞く」新規視点合成なら、PointNetは「点の集合から物体を識別する」認識寄りの系譜です。どちらも3Dですが、タスクと入出力が異なります。

後継の PointNet++ などは、近傍点の局所構造を階層的に集めることで精度を高めます。試験では細部より「点群を直接扱う深層学習の先駆」として整理すれば十分です。

実務・試験の地図では、層を分けて覚えるとすり替えに強くなります。

TF-332のように、センサーデータとAIの接点は試験で問われます。LiDARは「何を入力として得るか」、PointNetは「その入力をどう解釈するか」です。

演習で確認する

G検定：TF-401（CNNの基礎）、G-239（データとモデル）、TF-332（センサーデータとAI）、G-408（エッジ・センサー文脈）

関連：G-021（画像認識との対比）

PointNetは何をするアーキテクチャですか？

3D点群（空間上の点の集合）をニューラルネットワークへ直接入力し、物体の分類や点ごとのラベル付け（セグメンテーション）などを行う深層学習の設計です。画像のように格子状のピクセルへ変換せず、点の集合として処理する点が特徴です。

PointNetとLiDARは同じですか？

同じではありません。LiDARはレーザーで距離を測り3D点群を取得するセンサー技術です。PointNetはその点群データを機械学習で解釈するニューラルネットワークのアーキテクチャです。センサーとモデルを混同しないことが重要です。

PointNetと3D CNNは同じですか？

同じではありません。3D CNNはボクセルや動画ボリュームなど格子状の3次元データに畳み込みを適用します。PointNetは非構造な点群をそのまま扱い、点の順序に依存しない（並べ替え不変）設計が核心です。入力の表現とネットワーク構造が異なります。