单视图三维场景位姿估计方法、系统及设备技术方案

技术编号：40071776 阅读：5 留言：0更新日期：2024-01-17 00:17

本发明专利技术属于3D场景重建领域，具体涉及了一种基于单视图三维场景位姿估计方法、系统及设备，旨在解决现有技术无法仅根据一张图像对包含多个对象的复杂场景进行精确三维重建和位姿估计的问题。本发明专利技术包括：获取待处理图片；对待处理图片进行2D目标检测，获得所有目标的2D包围盒图片；基于待处理图片和所有目标的2D包围盒图片，通过基于神经网络的六路径3D包围盒构建网络，获取3D包围盒。本发明专利技术通过采用6个网络从不同的维度对3D对象的姿态进行估计，实现了仅通过单视图对场景及场景中的目标的位姿准确估计和三维重建，并分别设置5个损失函数对网络进行训练，最终获得的模型能够实现三维场景及场景中对象的自动重建，提高了模型重建的效率。

全部详细技术资料下载

【技术实现步骤摘要】

所属的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器（ram）、内存、只读存储器（rom）、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本专利技术的范围。术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。至此，已经结合附图所示的优选实施方式描述了本专利技术的技术方案，但是，本领域技术人员容易理解的是，本专利技术的保护范围显然不局限于这些具体实施方式。在不偏离本专利技术的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本专利技术的保护范围之内。

技术介绍

1、随着计算视觉技术的发展和应用需求的增长，理解和处理复杂的三维环境的需求日益增长。特别是在自动驾驶、机器人导航、3d打印、3维重建、场景还原等应用场景中，准确识别并理解目标及周边的3d环境重要。

2、对于这种类型的场景来说，一个核心问题是如何精确地估计其中3d物体的位置和姿态。然而，在实际情况中，3d场景常常由大量的物体组成，而且这些物体可能存在遮挡或部分不可见的现象，不同的对象对于单幅图像的重要性不同，这使得精确地定位和识别每一个物体的准确位姿变得困难重重。另外，现有的位姿识别方法通常需要通过多张图像或庞大的点云数据。因此，如何仅通过单张图像，在复杂且的环境中找到一种有效的方法来精确地恢复每个3d物体的姿态，并据此进行后续的3d建模工作，已经成为当前研究领域的热点问题。

技术实现思路

1、为了解决现有技术中的上述问题，即现有技术无法仅根据一张图像对包含多个对象的复杂场景进行精确三维重建和位姿估计的问题，本专利技术提供了一种单视图三维场景位姿估计方法，所述方法包括：

2、步骤s1，获取待处理图片；

3、步骤s2，对待处理图片进行2d目标检测，获得待处理图片中所有目标的2d包围盒图片；

4、步骤s3，基于所述待处理图片和所有目标的2d包围盒图片，通过基于神经网络的六路径3d包围盒构建网络，获取3d包围盒，3d包围盒包含三维场景位姿信息；

5、所述基于神经网络的六路径3d包围盒构建网络，包括并行的几何网络和对象网络支路；所述几何网络包括并行的第一几何网络支路、第二几何网络支路；所述对象网络支路包括并行的第一对象网络支路、第二对象网络支路、第三对象网络支路和第四对象网络支路；第一几何网络支路、第二几何网络支路、第一对象网络支路和第二对象网络支路均由残差-多层感知机子网络构成，第三对象网络支路和第四对象网络支路均由分类子网络和残差-多层感知机子网络组构成；

6、第二几何网络支路、第一对象网络支路、第二对象网络支路、第三对象网络支路和第四对象网络支路的输出端汇合为基于神经网络的六路径3d包围盒构建网络输出端。

7、所述残差-多层感知机子网络组为多个并行的残差-多层感知机子网络。

8、在一些优选的实施方式中，所述步骤s3，具体包括：

9、步骤s301，基于所述待处理图片通过第二几何网络支路获取相机姿态信息；

10、基于所述所有目标的2d包围盒图片，分别通过第一对象网络支路和第二对象网络支路获取投影偏移和距离；

11、对所述2d包围盒图片分别通过第三对象网络支路和第四对象网络支路获取每个目标的旋转值和每个目标的大小值；具体包括：

12、对所述2d包围盒图片分别进行针对大小属性的分类和针对角度属性的分类，获得大小分类的2d包围盒图片和角度分类的2d包围盒图片；

13、将每个目标的角度分类的2d包围盒图片通过第一残差-多层感知机子网络组获取每个目标的旋转值；将每个目标的大小分类的2d包围盒图片通过残差-多层感知机子网络组获取每个目标的大小值；

14、步骤s302，基于所有的所述相机姿态信息、投影偏移、距离、旋转值和大小值构建每个目标的3d包围盒，3d包围盒包含三维场景位姿信息。

15、本步骤通过基于神经网络的六路径3d包围盒构建网络的不同路分别获取构建3d包围盒的所需信息，避免了传统方法在没有深度信息的情况下，用2d包围盒中心来估计3d包围盒中心的偏差较大的问题，使得仅通过单张2d图像完成3d重建的精确度得到提高。

16、在一些优选的实施方式中，所述3d包围盒，参数表示为：

17、

18、其中，为三维向量表示物体3d包围盒8个顶点的世界坐标，为三维向量表示3d包围盒的中心点世界坐标，是世界坐标系下沿垂直轴方向的方向角，为3×3矩阵表示3d包围盒的朝向，为三维向量表示3d包围盒的大小，上角标w是世界坐标系world coordinate，是3d包围盒的数学表达式。

19、在一些优选的实施方式中，其3d包围盒中心点坐标的计算方法为：

20、

21、表示3d包围盒的中心点的世界坐标；表示相机外参的平移参数，第一视角的平移向量为0向量；表示相机中心到3d物体中心的距离；表示世界坐标系下3d包围盒的朝向；表示俯仰角pitch；表示横滚角roll；表示相机内参，包括焦距、主点和畸变系数；表示输入图片在2d平面的中心点坐标；表示3d包围盒中心投影到2d平面时与2d包围盒中心的偏移值。

22、在一些优选的实施方式中，所述3d包围盒，其3d包围盒的中心点投影公式为：

23、

24、表示可微分的投影函数；表示3d包围盒的中心点的世界坐标；表示3d包围盒中心投影到2d平面时2d包围盒的中心；投影函数为已知量；为相机的俯仰角pitch，为相机的横滚角roll，为3d包围盒中心投影到2d平面时与2d包围盒中心的偏移值，为相机中心到3d物体中心的距离。

25、在一些优选的实施方式中，所述基于神经网络的六路径3d包围盒构建网络，其训练方法包括：

26、步骤a1，获取训练集图片；

27、步骤a2，将训练集图片输入待训练的基于神经网络的六路径3d包围盒构建网络，获取训练集相机姿态信息、训练集本文档来自技高网...

【技术保护点】

1.一种单视图三维场景位姿估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的单视图三维场景位姿估计方法，其特征在于，所述步骤S3，具体包括：

3.根据权利要求1所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒，参数表示为：

4.根据权利要求3所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒，其3D包围盒中心点坐标的计算方法为：

5.根据权利要求4所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒，其3D包围盒的中心点投影公式为：

6.根据权利要求2所述的单视图三维场景位姿估计方法，其特征在于，所述基于神经网络的六路径3D包围盒构建网络，其训练方法包括：

7.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述几何网络损失函数，具体包括：

8.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述物理损失函数，具体包括：

9.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述对象网络支路损失函数，包括：

10.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述3D包围盒损失函数，具体包括：

11.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述投影损失函数，具体包括：

12.一种单视图三维场景位姿估计系统，其特征在于，所述系统包括：图像获取模块、目标检测模块和模型重建模块；

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-11任一项所述的单视图三维场景位姿估计方法。

...

【技术特征摘要】

1.一种单视图三维场景位姿估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的单视图三维场景位姿估计方法，其特征在于，所述步骤s3，具体包括：

3.根据权利要求1所述的单视图三维场景位姿估计方法，其特征在于，所述3d包围盒，参数表示为：

4.根据权利要求3所述的单视图三维场景位姿估计方法，其特征在于，所述3d包围盒，其3d包围盒中心点坐标的计算方法为：

5.根据权利要求4所述的单视图三维场景位姿估计方法，其特征在于，所述3d包围盒，其3d包围盒的中心点投影公式为：

6.根据权利要求2所述的单视图三维场景位姿估计方法，其特征在于，所述基于神经网络的六路径3d包围盒构建网络，其训练方法包括：

7.根据权利要求6所述的单视图三维场景位姿估计方法，其特征在于，所述几何网络损失函数，具体包括：

8...

【专利技术属性】
技术研发人员：方顺，冯星，张志恒，崔铭，朱家宝，熊宏康，裴瑶，吕艳娜，张亚男，贺斌，
申请(专利权)人：北京渲光科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人