基于深度学习的3D场景重建方法研究文献综述-综述毕设网

三维重建领域主要的数据格式有四种：

bull; 深度图(depth map)，2D图片，每个像素记录从视点到物体的距离，以灰度图表示，越近越黑；

bull; 体素(voxel)，体积像素概念，类似于2D之于像素定义；

bull; 点云(point cloud)，每个点都含有三维坐标，乃至色彩、反射强度信息；

bull; 网格(mesh)，即多边形网格，容易计算。

因而，依据处理的数据形式不同可以将研究简要分为三部分：1）基于体素；2）基于点云；3）基于网格。而基于深度图的三维重建算法暂时还没有，因为它更多的是用来在2D图像中可视化具体的三维信息而非处理数据。

（1）基于体素

体素，作为最简单的形式，通过将2D卷积扩展到3D进行最简单的三维重建。

D Eigen等人^[^[1]]等学者提出的神经网络分为两部分：全局粗粒度网络和局部细粒度网络。粗粒度网络的任务是使用场景的全局视图来预测整个深度图结构。细粒度网络会接收到粗粒度网络的预测和输入图片，以完成对粗略预测和局部细节的对齐。这个模型在当时取得了 state-of-art，但实际上预测还是十分粗糙的，有时模型的预测只能看出物体的大概轮廓。为了进一步提高分辨率，D Eigen等学者此后也对模型进行过一些改进。包括将网络从两部分扩展到三部分，从而提高一倍分辨率，但仍然只有输入图像分辨率的一半。

C B Choy等人^[^[2]]基于体素形式提出的3D-R2N2网络由三个部分组成：2D-CNN组成的编码器，3D-LSTM作为中间架构，以及 3D-DCNN组成的解码器，能够将输入图像转化为 3D 物体的体素表示。给定来自任意视点的对象的一个或多个图像，2D-CNN 首先将输入图像 x 编码为低维特征。然后，根据给定的编码输入，3D-LSTM单元选择性的更新它们的单元状态或维持原状态。最后，3D-DCNN 解码 LSTM 单元的隐藏状态并生成 3D 概率体素重建。

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

以上是毕业论文文献综述，课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于深度学习的3D场景重建方法研究文献综述

您可能感兴趣的文章

登录

您可能感兴趣的文章