当前位置: 首页 > 专利查询>罗伯特专利>正文

用于等矩形全景图语义解释的多视图一致性正则化制造技术

技术编号:30281052 阅读:18 留言:0更新日期:2021-10-09 21:49
用于等矩形全景图语义解释的多视图一致性正则化。人工神经网络被训练为基于图像数据产生用于三维环境的空间标记。二维图像表示是由三维环境的一个或多个相机捕获的全向图像数据产生的。使用二维图像表示作为输入并产生第一预测标签作为输出来应用人工神经网络。通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像。然后使用旋转的二维图像作为输入并产生第二预测标签作为人工神经网络的输出再次应用人工神经网络。至少部分基于第一预测标签与第二预测标签之间的差异来训练人工神经网络。训练人工神经网络。训练人工神经网络。

【技术实现步骤摘要】
用于等矩形全景图语义解释的多视图一致性正则化

技术介绍

[0001]本专利技术涉及使用人工神经网络应用针对图像数据的标签以及训练人工神经网络将标签应用于图像数据的系统和方法。

技术实现思路

[0002]随着虚拟现实和增强现实中的技术性突破,沉浸式内容的需求和数量都在快速增长。沉浸式内容的一个源是360度图像和视频。顾名思义,360图像捕获周围环境的全向视觉信息。理解和提取360图像中捕获的语义信息例如在各种商业领域中具有很大的潜力,该各种商业领域包括增强现实和虚拟现实、建筑构造和维护以及机器人技术。用于表示360图像的一种技术是“等矩形全景图”(ERP)。
[0003]在一些实施例中,ERP被用作至深度神经网络的输入,该深度神经网络被训练为基于ERP图像数据产生房间布局估计、对象检测和/或对象分类作为输出。与从透视相机投影生成的常规彩色图像相比,ERP图像对遮挡情况不太敏感,因为ERP图像包括周围环境(例如,房间)的360度全局信息。然而,使用ERP图像的一个缺点是缺乏足够大量的标记数据,其导致布局估计的有限性能。在一些实现方式中,通过利用多视图一致性正则化来解决该限制,该多视图一致性正则化利用ERP图像中布局的旋转不变性来减少对于大量训练数据的需求。
[0004]在各种实施例中,本文描述的系统和方法提供了新的正则化项,以改进深度神经网络对于等矩形全景图(ERP)图像的语义解释的性能。利用全景图图像的不同视图之间的一致性来减少用于深层神经网络训练的标记基本真值数据的量。该多视图一致性正则化方法可以应用于各种商业领域,其包括例如建筑构造和维护以及增强现实和虚拟现实系统。
[0005]在一个实施例中,本专利技术提供了一种训练人工神经网络以基于图像数据产生用于三维环境的空间标记的方法。二维图像表示是由三维环境的一个或多个相机捕获的全向图像数据产生的。使用二维图像表示作为输入并产生第一预测标签作为输出来应用人工神经网络。通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像。然后使用旋转的二维图像作为输入并产生第二预测标签作为人工神经网络的输出再次应用人工神经网络。至少部分基于第一预测标签与第二预测标签之间的差异来重新训练人工神经网络。
[0006]在另一个实施例中,本专利技术提供了使用人工神经网络基于图像数据产生用于三维环境的空间标记的系统。该系统包括被配置为捕获三维环境的全向图像数据的相机系统和控制器。控制器被配置为从相机系统接收全向图像数据,并产生全向图像数据的二维图像表示。控制器然后使用二维图像表示作为输入来应用人工神经网络,以产生作为输出的第一预测标签。通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像。然后使用旋转的二维图像作为输入并产生第二预测标签作为人工神经网络的输出再次应用人工神经网络。至少部分基于第一预测标签与第二预测标签之间的差异来重新训练人工神经网络。
[0007]在又一个实施例中,本专利技术提供了一种训练人工神经网络以基于图像数据产生用于三维环境的布局边界的空间标记的方法。相机系统捕获相机系统周围的三维环境的球形图像数据,并使用等矩形投影(ERP)产生球形图像数据的二维表示。使用二维图像表示作为输入并产生第一预测标签作为输出来应用人工神经网络。人工神经网络被配置为基于作为输入接收的等矩形投影(ERP)图像数据,产生限定三维环境的布局边界的预测标签作为其输出。通过生成旋转的二维图像(通过将限定数量的像素列从二维图像表示的一个水平端移动到另一个水平端),并使用旋转的二维图像作为输入来应用人工神经网络以产生作为输出的第二预测标签,来确定多视图一致性正则化损失项。基于第一预测标签和第二预测标签的比较来确定多视图一致性正则化损失项。基于针对二维图像表示的基本真值标签与第一预测标签之间的差异来确定任务特定损失项,并且基于任务特定损失项和多视图一致性正则化损失项二者来重新训练人工神经网络。
[0008]通过考虑详细描述和附图,本专利技术的其他方面将变得清楚。
附图说明
[0009]图1是根据一个实施例的用于使用人工神经网络来确定布局边界图以及用于训练人工神经网络的系统的框图。
[0010]图2是使用图1的系统对房间布局进行映射的方法。
[0011]图3是使用等矩形投影(ERP)将球形图像数据映射到2D图像文件中的图形示例。
[0012]图4A是限定房间的布局边界的标签的示例,该标签重叠在房间的ERP图像上。
[0013]图4B是旋转了90度的图4A的标签和ERP图像的示例。
[0014]图5是图示用于确定附加损失函数项的多视图一致性正则化技术的功能框图,该附加损失函数项用于通过旋转ERP图像训练数据来训练图1的系统中的人工神经网络。
[0015]图6是在图1的系统中使用多视图一致性正则化来训练人工神经网络的方法的流程图。
具体实施方式
[0016]在详细解释本专利技术的任何实施例之前,应当理解,本专利技术在其应用方面不限于以下描述中阐述的或以下附图中图示的构造细节和部件布置。本专利技术能够有其他实施例,并且能够以各种方式实践或实行。
[0017]图1图示了用于基于图像数据确定环境标签的系统的示例。例如,在各种实现方式中,图1的系统可以被配置为确定房间的布局边界,检测3D环境中的对象,和/或基于捕获的图像数据对3D环境中的对象进行分类(即,确定对象的身份)。该系统包括具有电子处理器103和非暂时性计算机可读存储器105的控制器101。存储器105存储数据和计算机可执行指令。存储在存储器105上的指令由电子处理器103访问和执行,以提供系统的功能,诸如以下示例中所述。
[0018]控制器101被配置为从可通信地耦合到控制器101的一个或多个相机107接收图像数据。在一些实现方式中,一个或多个相机107被配置为捕获包括例如360图像的全向图像数据。由一个或多个相机107捕获的图像数据由控制器101处理,以便为周围环境定义标签。在一些实现方式中,控制器101还可通信地耦合到显示器109,并被配置为使得显示器109显
示捕获的图像数据和/或所确定标签的视觉表示中的全部或部分。在一些实现方式中,控制器101被配置为在显示器109上示出与所确定标签的视觉表示重叠的捕获图像数据的“等矩形全景图”(ERP)表示。在一些实现方式中,显示器109还可以被配置为向图1的系统提供图形用户界面。
[0019]在一些实现方式中,控制器101还可通信地耦合到一个或多个致动器111。控制器101被配置为基于捕获的图像数据和/或所确定标签提供控制信号以操作一个或多个致动器111。例如,在一些实现方式中,致动器111可以包括用于控制机器人系统的移动和操作的电动机。在一些这样的实现方式中,控制器101可以被配置为向致动器111传送控制信号,以基于布局来操纵机器人穿过房间,该布局如基于捕获的图像数据被确定。类似地,在控制器101被配置为基于图像数据检测周围环境中的对象和对周围环境中的对象进行分类的一些实现方式中,控制器1010进一步被配置为向致动器1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练人工神经网络以基于图像数据产生用于三维环境的空间标记的方法,所述方法包括:产生由一个或多个相机捕获的三维环境的全向图像数据的二维图像表示;使用二维图像表示作为输入来应用人工神经网络,以产生第一预测标签,其中人工神经网络被配置为针对作为输入接收的图像数据产生用于三维环境的空间标记;通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像;使用旋转的二维图像作为输入来应用人工神经网络,以产生第二预测标签;和至少部分基于第一预测标签与第二预测标签之间的差异来重新训练人工神经网络。2.根据权利要求1所述的方法,其中生成旋转的二维图像包括通过在水平方向上将二维图像表示的图像像素移位第一限定移位量来生成第一旋转的二维图像,所述方法进一步包括:通过在水平方向上将二维图像表示的图像像素移位第二限定移位量来生成第二旋转的二维图像,第二限定移位量不同于第一限定移位量;和使用第二旋转的二维图像作为输入来应用人工神经网络以产生第三预测标签,其中重新训练人工神经网络包括至少部分基于第一预测标签、第二预测标签和第三预测标签之间的差异来重新训练人工神经网络。3.根据权利要求1所述的方法,进一步包括使用一个或多个相机捕获全向图像数据,所述一个或多个相机被配置为在所述一个或多个相机周围的三维环境中捕获360度图像数据,其中生成旋转的二维图像包括从二维图像表示的第一水平端移除图像数据的一部分,以及将图像数据的移除部分附加到二维图像表示的第二水平端,第二水平端与第一水平端相对。4.根据权利要求1所述的方法,进一步包括使用一个或多个相机捕获全向图像数据,所述一个或多个相机被配置为在所述一个或多个相机周围的三维环境中捕获球形图像数据,其中产生全向图像数据的二维图像表示包括使用等矩形全景图投影将球形图像数据映射到二维图像表示。5.根据权利要求1所述的方法,其中使用旋转的二维图像作为输入来应用人工神经网络以产生第二预测标签包括使用二维图像表示作为输入来应用人工神经网络,以产生限定三维环境中的布局边界的第二预测标签,其中以对应于旋转的二维图像的格式的二维格式来限定第二预测标签的布局边界。6.根据权利要求5所述的方法,进一步包括通过以下各项量化第一预测标签与第二预测标签之间的差异在反向水平方向上移位第二预测标签的图像像素,以将第二预测标签与第一预测标签对齐,以及将移位的第二预测标签与第一预测标签进行比较。7.根据权利要求1所述的方法,进一步包括:确定针对三维环境的二维图像表示的基本真值标签;通过比较基本真值标签和第一预测标签来确定任务特定损失项;和通过比较第一预测标签和第二预测标签来确定附加损失项,
其中至少部分基于第一预测标签与第二预测标签之间的差异来重新训练人工神经网络包括基于任务特定损失项和附加损失项来重新训练人工神经网络。8.一种使用人工神经网络基于图像数据产生用于三维环境的空间标记的系统,所述系统包括:相机系统,被配置为捕获三维环境的全向图像数据;和控制器,被配置为接收由相机系统捕获的全向图像数据,产生三维环境的全向图像数据的二维图像表示,使用二维图像表示作为输入来应用人工神经网络,以产生第一预测标签,其中人工神经网络被配置为针对作为输入接收的图像数据产生用于三维环境的空间标记,通过在水平方向上移位二维图像表示的图像像素来生成旋转的二维图像,使用旋转的二维图像作为输入来应用人工神经网络,以产生第二预测标签,以及至少部分基于第一预测标签与第二预...

【专利技术属性】
技术研发人员:闫志鑫李语嫣任骝
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1