用于等矩形全景图语义解释的多视图一致性正则化制造技术

技术编号：30281052 阅读：18 留言：0更新日期：2021-10-09 21:49

用于等矩形全景图语义解释的多视图一致性正则化。人工神经网络被训练为基于图像数据产生用于三维环境的空间标记。二维图像表示是由三维环境的一个或多个相机捕获的全向图像数据产生的。使用二维图像表示作为输入并产生第一预测标签作为输出来应用人工神经网络。通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像。然后使用旋转的二维图像作为输入并产生第二预测标签作为人工神经网络的输出再次应用人工神经网络。至少部分基于第一预测标签与第二预测标签之间的差异来训练人工神经网络。训练人工神经网络。训练人工神经网络。

全部详细技术资料下载

【技术实现步骤摘要】
用于等矩形全景图语义解释的多视图一致性正则化

技术介绍

[0001]本专利技术涉及使用人工神经网络应用针对图像数据的标签以及训练人工神经网络将标签应用于图像数据的系统和方法。

技术实现思路

[0002]随着虚拟现实和增强现实中的技术性突破，沉浸式内容的需求和数量都在快速增长。沉浸式内容的一个源是360度图像和视频。顾名思义，360图像捕获周围环境的全向视觉信息。理解和提取360图像中捕获的语义信息例如在各种商业领域中具有很大的潜力，该各种商业领域包括增强现实和虚拟现实、建筑构造和维护以及机器人技术。用于表示360图像的一种技术是“等矩形全景图”（ERP）。
[0003]在一些实施例中，ERP被用作至深度神经网络的输入，该深度神经网络被训练为基于ERP图像数据产生房间布局估计、对象检测和/或对象分类作为输出。与从透视相机投影生成的常规彩色图像相比，ERP图像对遮挡情况不太敏感，因为ERP图像包括周围环境（例如，房间）的360度全局信息。然而，使用ERP图像的一个缺点是缺乏足够大量的标记数据，其导致布局估计的有限性能。在一些实现方式中，通过利用多视图一致性正则化来解决该限制，该多视图一致性正则化利用ERP图像中布局的旋转不变性来减少对于大量训练数据的需求。
[0004]在各种实施例中，本文描述的系统和方法提供了新的正则化项，以改进深度神经网络对于等矩形全景图（ERP）图像的语义解释的性能。利用全景图图像的不同视图之间的一致性来减少用于深层神经网络训练的标记基本真值数据的量。该多视图一致性正则化方法可以应用于各种商业...

【技术保护点】

【技术特征摘要】
1.一种训练人工神经网络以基于图像数据产生用于三维环境的空间标记的方法，所述方法包括：产生由一个或多个相机捕获的三维环境的全向图像数据的二维图像表示；使用二维图像表示作为输入来应用人工神经网络，以产生第一预测标签，其中人工神经网络被配置为针对作为输入接收的图像数据产生用于三维环境的空间标记；通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像；使用旋转的二维图像作为输入来应用人工神经网络，以产生第二预测标签；和至少部分基于第一预测标签与第二预测标签之间的差异来重新训练人工神经网络。2.根据权利要求1所述的方法，其中生成旋转的二维图像包括通过在水平方向上将二维图像表示的图像像素移位第一限定移位量来生成第一旋转的二维图像，所述方法进一步包括：通过在水平方向上将二维图像表示的图像像素移位第二限定移位量来生成第二旋转的二维图像，第二限定移位量不同于第一限定移位量；和使用第二旋转的二维图像作为输入来应用人工神经网络以产生第三预测标签，其中重新训练人工神经网络包括至少部分基于第一预测标签、第二预测标签和第三预测标签之间的差异来重新训练人工神经网络。3.根据权利要求1所述的方法，进一步包括使用一个或多个相机捕获全向图像数据，所述一个或多个相机被配置为在所述一个或多个相机周围的三维环境中捕获360度图像数据，其中生成旋转的二维图像包括从二维图像表示的第一水平端移除图像数据的一部分，以及将图像数据的移除部分附加到二维图像表示的第二水平端，第二水平端与第一水平端相对。4.根据权利要求1所述的方法，进一步包括使用一个或多个相机捕获全向图像数据，所述一个或多个相机被配置为在所述一个或多个相机周围的三维环境中捕获球形图像数据，其中产生全向图像数据的二维图像表示包括使用等矩形全景图投影将球形图像数据映射到二维图像表示。5.根据权利要求1所述的方法，其中使用旋转的二维图像作为输入来应用人工神经网络以产生第二预测标签包括使用二维图像表示作为输入来应用人工神经网络，以产生限定三维环境中的布局边界的第二预测标签，其中以对应于旋转的二维图像的格式的二维格式来限定第二预测标签的布局边界。6.根据权利要求5所述的方法，进一步包括通过以下各项量化第一预测标签与第二预测标签之间的差异在反向水平方向上移位第二预测标签的图像像素，以将第二预测标签与第一预测标签对齐，以及将移位的第二预测标签与第一预测标签进行比较。7.根据权利要求1所述的方法，进一步包括：确定针对三维环境的二维图像表示的基本真值标签；通过比较基本真值标签和第一预测标签来确定任务特定损失项；和通过比较第一预测标签和第二预测标签来确定附加损失项，
其中至少部分基于第一预测标签与第二预测标签之间的差异来重新训练人工神经网络包括基于任务特定损失项和附加损失项来重新训练人工神经网络。8.一种使用人工神经网络基于图像数据产生用于三维环境的空间标记的系统，所述系统包括：相机系统，被配置为捕获三维环境的全向图像数据；和控制器，被配置为接收由相机系统捕获的全向图像数据，产生三维环境的全向图像数据的二维图像表示，使用二维图像表示作为输入来应用人工神经网络，以产生第一预测标签，其中人工神经网络被配置为针对作为输入接收的图像数据产生用于三维环境的空间标记，通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像，使用旋转的二维图像作为输入来应用人工神经网络，以产生第二预测标签，以及至少部分基于第一预测标签与第二预...

【专利技术属性】
技术研发人员：闫志鑫，李语嫣，任骝，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人