NeRF(Neural Radiance Fields)は、3D空間の各点に色と密度を割り当てる連続場をニューラルネットで表現し、見ていない視点の画像を合成する手法です。Stable Diffusionがテキストから2D画像を「描く」のに対し、NeRFは複数視点の写真から3Dシーンを復元し、カメラを動かした映像を生成する——本記事はレンダリングの数式より、「場としての3D表現」に焦点を当てます。
場としての3D表現
従来の3D再構成は、メッシュや点群として形状を持たせる方法が多かったです。LiDARの点群は「離散的な座標の集合」——NeRFは別のアプローチで、空間を連続的な関数として扱います。
G-379の定義——ニューラルネットワークで3Dシーンを表現し、新しい視点からの画像を生成する——が試験の核心です。ポリゴンを貼るのではなく、座標を入れると色と透明度が返る場を学習する、という発想の転換です。
座標と視線を入れ、色と密度を出す
NeRFのネットワークは、ざっくり次の入出力を持ちます。
| 入出力 | 内容 | 意味 |
|---|---|---|
| 入力 | 3D座標 (x, y, z) + 視線方向 | 「この点を、この角度から見たら?」 |
| 出力 | 色(RGB)+ 体密度(σ) | その点がどれだけ光を放ち、どれだけ不透明か |
| 学習データ | 複数カメラ視点の写真 | 既知視点の画素色と予測を一致させる |
視線方向を入れるのは、表面の見え方が見る角度で変わる(鏡面反射など)ため——単純な3Dテクスチャよりリッチな場を表現できます。試験では入出力の細部より、3D+新規視点合成と覚えれば十分です。
ボリュームレンダリング
場ができても、カメラの画像は光線が通過する途中の積分で決まります。NeRFはカメラから各画素へ向かう光線(レイ)を飛ばし、途中の点の色と密度をボリュームレンダリングで足し合わせて1画素の色を得ます。
- 1. レイ生成 — カメラ位置と画素から光線を定義
- 2. サンプリング — 光線上の複数点でNeRFに問い合わせ
- 3. 積分 — 密度で重み付けし色を合成→予測画像
- 4. 学習 — 実写真との誤差を逆伝播し場を更新
CNNが2D画像の局所特徴を捉える(HQ-0298)のに対し、NeRFは3D空間を経由して2Dを描く——2D認識と3D合成は別タスク、と整理するとすり替えに強くなります。
生成モデル族の中での位置
G-378は、GAN、拡散モデル、NeRFを生成モデルの代表例として並べます——出力は画像でも、NeRFの本質は3D場の表現+視点合成です。
| 手法 | 生成の仕方 | NeRFとの差 |
|---|---|---|
| NeRF | 3D場→ボリュームレンダリング→画像 | 複数視点から一つのシーンを復元 |
| GAN | 生成器が2D画像を直接出力 | 3D幾何を明示しない。対抗学習 |
| 拡散モデル | ノイズ除去で2D画像生成 | テキスト条件の単発画像が主流 |
| Text-to-Image | プロンプトから画像 | 3D一貫性は別課題 |
AR・VR、デジタルツイン、映画の仮想カメラワークなどで新規視点合成が注目されます——2026年6月時点でも研究・応用が続く分野です。
試験で押さえるポイント
- 定義 — Neural Radiance Fields=NNで3Dシーンを表現し新規視点画像を生成
- キーワード — 3D再構成、新規視点合成、ボリューム表現
- 対比 — BoW(NLP)、MFCC(音声)、Q学習(強化学習)は誤答パターン(G-379)
- 位置づけ — 生成モデルの一族(G-378)。2D画像分類のCNNとは別
すり替えに注意
| 誤った説明 | 正しい理解 |
|---|---|
| NeRF=Bag of Words | 3D視点合成 vs 文書の単語ベクトル(G-379 B) |
| NeRF=GAN | 放射場+レンダリング vs 生成器―識別器の対抗 |
| NeRF=CNN | 3D場の合成 vs 2D局所特徴の認識 |
| NeRF=LiDAR | 学習ベースの連続場 vs 距離センサの点群 |
| NeRF=Stable Diffusion | マルチビュー3D復元 vs テキスト条件2D生成 |
よくある質問
NeRFは何をする手法ですか?
ニューラルネットワークで3Dシーンを連続的な場として表現し、学習時に観測していない新しい視点からの画像を合成する手法です。空間座標と視線方向ごとに色と密度を予測し、光線に沿って積分して画像を描きます。3D再構成や新規視点合成に使われます。
NeRFとGANは同じですか?
同じではありません。GANは生成器と識別器を競わせて2D画像などを生成する対抗学習の枠組みです。NeRFは3D空間の放射場をニューラルネットで表現し、特定のカメラ視点の画像をボリュームレンダリングで合成します。どちらも生成に関わりますが、表現する対象と仕組みが異なります。
NeRFとBag of Wordsは同じですか?
同じではありません。NeRFは3Dシーンの新規視点画像合成に関するコンピュータビジョンの手法です。Bag of Wordsは文書を単語の出現ベクトルで表す自然言語処理の手法です。G検定ではNeRFの誤答選択肢としてBoWがすり替えに使われることがあります。