三维重建领域主要的数据格式有四种:
bull; 深度图(depth map),2D图片,每个像素记录从视点到物体的距离,以灰度图表示,越近越黑;
bull; 体素(voxel),体积像素概念,类似于2D之于像素定义;
bull; 点云(point cloud),每个点都含有三维坐标,乃至色彩、反射强度信息;
bull; 网格(mesh),即多边形网格,容易计算。
因而,依据处理的数据形式不同可以将研究简要分为三部分:1)基于体素;2)基于点云;3)基于网格。而基于深度图的三维重建算法暂时还没有,因为它更多的是用来在2D图像中可视化具体的三维信息而非处理数据。
(1)基于体素
体素,作为最简单的形式,通过将2D卷积扩展到3D进行最简单的三维重建。
D Eigen等人[[1]]等学者提出的神经网络分为两部分:全局粗粒度网络和局部细粒度网络。粗粒度网络的任务是使用场景的全局视图来预测整个深度图结构。细粒度网络会接收到粗粒度网络的预测和输入图片,以完成对粗略预测和局部细节的对齐。这个模型在当时取得了 state-of-art,但实际上预测还是十分粗糙的,有时模型的预测只能看出物体的大概轮廓。为了进一步提高分辨率,D Eigen等学者此后也对模型进行过一些改进。包括将网络从两部分扩展到三部分,从而提高一倍分辨率,但仍然只有输入图像分辨率的一半。
C B Choy等人[[2]]基于体素形式提出的3D-R2N2网络由三个部分组成:2D-CNN组成的编码器,3D-LSTM作为中间架构,以及 3D-DCNN组成的解码器,能够将输入图像转化为 3D 物体的体素表示。给定来自任意视点的对象的一个或多个图像,2D-CNN 首先将输入图像 x 编码为低维特征。然后,根据给定的编码输入,3D-LSTM单元选择性的更新它们的单元状态或维持原状态。最后,3D-DCNN 解码 LSTM 单元的隐藏状态并生成 3D 概率体素重建。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。