一种自监督360°深度估计方法、装置、设备及介质制造方法及图纸

技术编号：40879941 阅读：4 留言：0更新日期：2024-04-08 16:50

本发明专利技术公开了一种自监督360°深度估计方法、装置、设备及介质，通过E2P变换将ERP图像转换成TP图像；将TP图像中失真最小的TP图像输入预设的骨干网络，在不同尺度提取TP特征块；根据频域空间域特征聚合模型提取TP特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的聚合特征；将聚合特征分别输入TP域深度解码器和ERP域深度解码器中进行解码，得到TP域的深度图和对应置信图，ERP域的深度图，将TP域的深度图和ERP域的深度图融合得到融合图；采用球形视图合成从TP域的深度图、ERP域的深度图以及融合图分别生成新视点的视图，得到深度估计图。本申请方案能够提升深度估计的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体涉及一种自监督360°深度估计方法、装置、设备及介质。

技术介绍

1、作为三维场景理解的一项重要任务，360°全景深度估计在自主导航、虚拟现实和三维场景重建等应用中发挥着重要作用。epr投影，即等距柱状投影因其映射关系简单且能捕获完整连续的全方位场景而成为最常使用的全景图像格式。然而，它在两极区域存在严重的球形畸变，直接将普通的卷积应用于erp图像会导致模型的性能急剧下降，深度估计的准确性较低。

技术实现思路

1、为了解决上述问题，本专利技术提出一种自监督360°深度估计方法、装置、设备及介质，提升深度估计的准确性。

2、本专利技术实施例提供一种自监督360°深度估计方法，所述方法包括：

3、通过e2p变换将erp图像转换成tp图像；

4、将生成的tp图像中失真最小的 npatch个tp图像输入预设的骨干网络，在不同尺度提取 npatch个tp特征块；

5、根据预设的频域空间域特征聚合模型提取 npatch个tp特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的 npatch个聚合特征；

6、将 npatch个聚合特征分别输入预设的tp域深度解码器和预设的erp域深度解码器中进行解码，得到t

7、采用球形视图合成从tp域的深度图、erp域的深度图以及融合图分别生成新视点的视图，得到深度估计图；

8、其中， npatch为正整数。

9、优选地，在根据预设的频域空间域特征聚合模型提取 npatch个tp特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的 npatch个聚合特征后，所述方法还包括：

10、将 npatch个聚合特征输入到预设的结构特征对齐模型的conv3d层中减少特征通道个数；

11、利用softmax激活函数对conv3d层的输出特征进行处理，得到tp块中每个像素的注意力权重；

12、将得到注意力权重分别与 npatch个聚合特征进行矩阵相乘，得到几何先验信息；

13、重新校准中每个通道的重要性，得到校准后的全局几何先验信息输出；

14、通过元素广播相加的方式把全局几何先验信息集成到 npatch个聚合特征中，进行p2e转换以得到对齐后的 npatch个聚合特征。

15、优选地，所述根据预设的频域空间域特征聚合模型提取 npatch个tp特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的 npatch个聚合特征，包括；

16、根据所述频域空间域特征聚合模型中的tp编码器提取tp特征块的tp特征；

17、通过快速傅里叶变换将提取的tp特征转换到频域，得到频域特征；

18、将所得到的频域特征的实部和虚部在特征维度拼接在一起，并在频域中应用conv2d块来提取每个tp特征块的全局上下文；

19、将全局上下文通过傅里叶逆变换转换回空间域，得到全局特征；

20、将全局特征与tp特征块拼接后，送入另一个conv2d块，恢复特征通道个数，生成 npatch个聚合特征。

21、作为一种优选方案，所述tp域的深度图和对应置信图生成过程，包括：

22、通过所述tp域深度解码器的第一单元、第二单元和第三单元分别对 npatch个聚合特征进行处理，分别得到三个解码特征；

23、通过三个解码特征融合得到深度解码特征，并将深度解码特征上采样到与tp特征块相同的分辨率；

24、两个conv3d层对上采样特征进行解码，分别得到深度图及其对应的置信图；

25、其中，每一单元对 npatch个聚合特征进行处理的过程包括：

26、由上采样层将 npatch个聚合特征采样至特征相同大小后，输入到所述tp域深度解码器的第一个conv3d块中，丰富其空间特征表示；将得到的特征与特征连接起来，结合局部细节和语义先验得到级联特征；将得到的级联特征输入到所述tp域深度解码器的第二个conv3d块中，减少特征通道的数量，得到解码特征。

27、优选地，所述erp域的深度图生成过程包括：

28、采用所述erp域深度解码器中的特征对齐模块将 npatch个聚合特征对齐，得到输出特征；

29、采用p2e转换将输出特征转换到erp域，得到转换特征；

30、由所述erp域深度解码器的第一解码单元将特征输入频域注意力块中，利用自注意力机制进行优化；

31、采用elu激活函数的conv2d层处理优化特征，通过上采样，得到与特征有相同大小的深度特征；

32、由所述erp域深度解码器的第四解码单元同时接收多尺度特征和深度特征作为输入，得到深度特征；

33、解码后的erp域深度特征被输入到预设的深度分布分类模块中，计算离散区间中值的拉普拉斯混合分布，以得到erp域的深度图；

34、其中，erp域的深度图，表示该像素属于第i个深度区间的概率，和分别表示第i个深度区间的实际中值和第j个深度区间的实际中值，，，和表示每个像素的第j个深度区间对应的拉普拉斯分布的权重和尺度，表示该像素属于第i个深度区间的概率，z是一个归一化常数，为最小阈值，为深度区间数量。

35、优选地，所述融合图；

36、其中，为tp域的置信度图，为tp域的深度图，为erp域的深度图。

37、作为一种优选方案，所述方法还包括：

38、基于球形光度损失、平滑损失、显著方向法线损失和共面损失构建的损失函数计算深度估计图的损失值，根据损失值修正深度估计图；

39、其中，深度估计图的损失值，为tp域的深度图的损失值，为erp域的深度图的损失值，为融合图的损失值，、本文档来自技高网...

【技术保护点】

1.一种自监督360°深度估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的自监督360°深度估计方法，其特征在于，在根据预设的频域空间域特征聚合模型提取Npatch个TP特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的Npatch个聚合特征后，所述方法还包括：

3.根据权利要求1所述的自监督360°深度估计方法，其特征在于，所述根据预设的频域空间域特征聚合模型提取Npatch个TP特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的Npatch个聚合特征，包括；

4.根据权利要求1所述的自监督360°深度估计方法，其特征在于，所述TP域的深度图和对应置信图生成过程，包括：

5.根据权利要求1所述的自监督360°深度估计方法，其特征在于，所述ERP域的深度图生成过程包括：

6.根据权利要求1所述的自监督360°深度估计方法，其特征在于，所述融合图；

7.根据权利要求1所述的自监督360°深度估计方法，其特征在于，所述方法还包括：

8.一种

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的自监督360°深度估计方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的自监督360°深度估计方法。

...

【技术特征摘要】

1.一种自监督360°深度估计方法，其特征在于，所述方法包括：

2.根据权利要求1所述的自监督360°深度估计方法，其特征在于，在根据预设的频域空间域特征聚合模型提取npatch个tp特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的npatch个聚合特征后，所述方法还包括：

3.根据权利要求1所述的自监督360°深度估计方法，其特征在于，所述根据预设的频域空间域特征聚合模型提取npatch个tp特征块中的全局特征，并将其添加到原有的特征中，得到聚合了块内的非局部信息的npatch个聚合特征，包括；

4.根据权利要求1所述的自监督360°深度估计方法，其特征在于，所述tp域的深度图和对应置信图生成过程，包括：

5.根据权利要求1所述的自监督360°深度估计方法，其特...

【专利技术属性】
技术研发人员：王旭，何紫嫣，张秋丹，江健民，
申请(专利权)人：深圳大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人