NeRF学习笔记

在学习NeRF（Neural Radiance Fields）的过程中，我记录了一些关键概念和思考。本文将分享我的学习心得，帮助大家理解NeRF的工作原理。

最初，我对NeRF的输入输出产生了疑问：为什么输入是5D向量而不是图片？图片中为什么会有theta和phi这些值？4D向量又是如何变成图片的？

经过思考，我意识到这中间应该有两个关键步骤：

这里需要特别说明的是，5D向量和4D向量都是针对粒子的表示。5D向量表示粒子的位置(x,y,z)和视角方向(θ,φ)，4D向量表示粒子的颜色(RGB)和密度(σ)。

NeRF的核心是体渲染（Volume Rendering）技术。在这个过程中，光线与粒子发生相互作用：

NeRF基于以下假设：

理解这个后，又有新的问题了：图片是怎么得到这些粒子的，同时这些粒子又是怎么渲染成新的图片的？这涉及到两个关键过程：从图片和相机位姿计算射线，从射线上采样粒子；以及通过体渲染将粒子渲染成新的图片。

这个公式好像不太对，我查阅了相关资料，应该按下面这种理解(公式打不出来，只能以图片形式展示了)

对于图片上的每个像素，我们可以将其看作沿着某条射线上的无数个发光点的和。这个射线可以表示为：rt=o+td，其中o是射线原点，d为方向，t为距离。在极坐标表示中，理论上t可以从零到正无穷。

在实现中：

模型结构：

当实验时发现只输入3d位置和3d视角，建模结果细节丢失，缺乏高频信息。为了改善模型性能，该方法引入了位置编码。对于空间坐标(x,y,z)，每个坐标用sin和cos表示，L从0到10，所以一个坐标有20维，三个坐标共60维。同理，视角坐标得到24维。

为什么空间坐标参数是10，视角坐标参数是6？论文论证了观测方向不应当影响密度，但会改变颜色，这可能是因为x,y,z对高频信息的影响更大。

损失函数采用自监督方式：

体渲染采用连续积分方式：

求和公式如下：

下面的推导过程：

当然计算机只能进行离散化处理：

推导过程如下：

从图片反推射线如下：

为了提高效率，文章中采用了两阶段采样策略：

具体实现：

这种方法可以确保在有效区域进行更密集的采样，而在无效区域（如空白区域和遮挡区域）减少采样。具体来说，无效区域比如空白区域和遮挡区域进行均匀采样，我们希望有效区域多采样，无效区域少采样或者不采样。