深度估计模型训练方法、数据处理设备及头戴式设备技术

技术编号：41319151 阅读：5 留言：0更新日期：2024-05-13 14:59

本发明专利技术公开了一种深度估计模型训练方法、数据处理设备及头戴式设备，通过数据采集、模型训练、模型压缩、模型部署等步骤对深度估计模型进行训练，使其能够得到非常精准的视差图，模型压缩步骤能够提升深度估计模型推理速度，对深度估计模型使用的剪枝、量化等方法，在保证精度的基础上减少运算量，且不需要任何3D摄像头，通过深度估计模型对双目相机获取的2D图像就能够进行准确的深度估计，减少了深度估计的成本，通过所述视差图获取三维点云与左目图像纹理建模并和虚拟物体进行叠加合成，最终生成一个显示精准的混合现实场景。本发明专利技术的优点在于，深度估计成本低，耗时短，准确率高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器视觉领域，尤其涉及一种深度估计模型训练方法、数据处理设备及头戴式设备。

技术介绍

1、图像的深度估计是机器视觉领域的基础问题，其可应用于自动驾驶、场景理解、机器人学、三维重建、摄影摄像、智能医学、智能人机交互、空间测绘、增强现实等领域。

2、在vr设备中，视觉slam(simultaneous localization and mapping，即时定位与地图构建)是主要依赖的6dof技术，指的是机器人在自身位置不确定的条件下，在完全未知环境中根据相机采集的图像创建地图，同时利用地图进行自主定位和导航；在mr混合现实中，无论是视频透视，还是三维重建、障碍物感应等应用都需要准确地获取周围环境深度信息。

3、目前很多vr设备并不支持周围环境的实时深度估计，部分vr设备虽然支持深度估计，但依赖3d传感器基础上进行视场角受限的深度估计或基于图像做粗糙的深度估计，这些深度估计方法无法同时做到精度高与能耗硬件成本的均衡，无法满足实际需求。

技术实现思路

1、本专利技术提供一种深度估计模型训练方法、数据处理设备及头戴式设备，用以解决现有头戴式设备进行深度估计成本高，耗时长以及准确率低的问题。

2、为了解决上述技术问题，本专利技术公开了如下技术方案：

3、本专利技术提供了一种深度估计模型训练方法，包括图像获取步骤，立体校正步骤，预处理步骤，模型构建步骤，参数更新步骤，模型压缩步骤，视差优化步骤以及点云计算步骤。

4、所述图

5、进一步地，所述立体校正步骤具体包括映射矩阵计算步骤以及图像校正步骤。所述映射矩阵计算步骤是通过所述双目相机的内参以及所述双目相机中左右相机之间的外参计算两组映射矩阵；所述图像校正步骤是根据所述映射矩阵将所述第一图像的朝向与所述第二图像的朝向校正至与用户视野方向一致。

6、进一步地，所述映射矩阵计算步骤的计算公式为

7、map_x，map_y＝init(k1，d1，k2，d2，r，t)

8、其中，map_x表示映射矩阵，map_y表示映射矩阵，init表示初始化函数，k1表示所述双目相机左相机的内参，k2表示所述双目相机右相机的内参，d1表示所述双目相机左相机的畸变参数，d2表示所述双目相机右相机的畸变参数，r表示从右相机坐标系变换到左相机坐标系的旋转矩阵，t表示从右相机坐标系变换到左相机坐标系的平移。

9、进一步地，所述图像校正步骤的计算公式为

10、dst(x，y)＝src(map_x(x，y)，map_y(x，y))

11、其中，dst表示立体校正后的图像，src表示立体校正前的图像，(x，y)表示图像中任意一个像素坐标。进一步地，在所述参数更新步骤中，损失值的计算公式为

12、loss＝|disp_pre-disp_gt|

13、其中，loss表示损失值，disp_pre表示所述第一预测视差图，disp_gt表示所述真实视差图。

14、进一步地，所述模型压缩步骤的计算公式为

15、

16、

17、q_int8＝round(f_float32/s+z)

18、其中，f_max表示每一个网络层量化前浮点输出的最大值，f_min表示每一个网络层量化前浮点输出的最小值，q_max表示量化后输出的最大值，q_min表示量化后输出的最小值，round表示取整函数，f_float32表示参数量化前的浮点值，q_int8表示参数量化后的整数值。

19、进一步地，所述视差优化步骤的计算公式为

20、g(x，y)＝(1/2πσ2)*exp(-(x2+y2)/2σ2)

21、

22、其中，g(x，y)表示滤波核在位置(x，y)处的值，σ表示高斯核的标准差，exp表示自然指数函数，(x2+y2)表示位置(x，y)处到左相机坐标系的原点的距离平方，表示滤波后的视差图，即所述第二预测视差图，表示滤波前的视差图，即所述第一预测视差图。

23、进一步地，所述点云计算步骤的计算公式为

24、

25、

26、

27、其中，(x，y，z)表示像素点在世界系坐标系下的坐标，(u,v)表示所述第二预测视差图中的像素点，b表示所述双目相机的基线长度，f表示所述双目相机的焦距，(cx,cy)表示所述双目相机的主点，disparity(u,v)表示像素点(u,v)的视差值。

28、本专利技术还提供一种数据处理设备，包括存储器以及处理器。所述存储器用以存储可执行程序代码；所述处理器用以读取所述可执行程序代码，以运行与所述可执行程序代码对应的计算机程序，以执行所述的深度估计模型训练方法中的至少一步骤。

29、本专利技术还提供一种头戴式设备，包括所述数据处理设备以及双目相机。

30、所述双目相机包括左相机以及右相机，所述双目相机连接至所述数据处理设备。

31、与现有技术相比，本专利技术至少具备以下技术效果：

32、本专利技术提供了一种深度估计模型训练方法、数据处理设备及头戴式设备，通过数据采集、模型训练、模型压缩、模型部署等步骤对深度估计模型进行训练，使其能够得到非常精准的视差图，模型压缩步骤能够提升深度估计模型推理速度，对深度估计模型使用的剪枝、量化等方法，在保证精度的基础上减少运算量，且不需要任何3d摄像头，通过深度估计模型对双目相机获取的2d图像就能够进行准确的深度估计，减少了深度估计的成本，通过本专利技术获取三维点云与左目图像纹理建模并和虚拟物体进行叠加合成，最终生成一个显示精准的混合现实场景。

本文档来自技高网...

【技术保护点】

1.一种深度估计模型训练方法，其特征在于，包括：

2.如权利要求1所述的深度估计模型训练方法，其特征在于，所述立体校正步骤具体包括如下步骤：

3.如权利要求3所述的深度估计模型训练方法，其特征在于，所述映射矩阵计算步骤的计算公式为

4.如权利要求3所述的深度估计模型训练方法，其特征在于，所述图像校正步骤的计算公式为

5.如权利要求1所述的深度估计模型训练方法，其特征在于，在所述参数更新步骤中，损失值的计算公式为

6.如权利要求1所述的深度估计模型训练方法，其特征在于，所述模型压缩步骤的计算公式为

7.如权利要求1所述的深度估计模型训练方法，其特征在于，所述视差优化步骤的计算公式为

8.如权利要求1所述的深度估计模型训练方法，其特征在于，所述点云计算步骤的计算公式为

9.一种数据处理设备，其特征在于，包括：

10.一种头戴式设备，其特征在于，包括：

【技术特征摘要】

1.一种深度估计模型训练方法，其特征在于，包括：

2.如权利要求1所述的深度估计模型训练方法，其特征在于，所述立体校正步骤具体包括如下步骤：

3.如权利要求3所述的深度估计模型训练方法，其特征在于，所述映射矩阵计算步骤的计算公式为

4.如权利要求3所述的深度估计模型训练方法，其特征在于，所述图像校正步骤的计算公式为

5.如权利要求1所述的深度估计模型训练方法，其特征在于，在所述参数...

【专利技术属性】
技术研发人员：孙苏园，周奇，洪羽欣，张腾，
申请(专利权)人：玩出梦想上海科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人