训练神经网络的方法、训练神经网络的系统以及神经网络技术方案

技术编号:35366530 阅读:17 留言:0更新日期:2022-10-29 18:06
本公开涉及训练神经网络的方法、训练神经网络的系统以及神经网络。一种用于训练第一神经网络,以在图像输入到第一神经网络时,检测在该图像上可见并且属于给定对象类别的对象的视点的方法,包括:提供不同视点下的多对图像的数据集,提供被配置成能够得出对象的外观信息的第二神经网络,提供被配置成能够使用外观信息和视点,得出所述类别的对象的合成图像的第三神经网络,联合训练第一神经网络、第二神经网络和第三神经网络。神经网络和第三神经网络。神经网络和第三神经网络。

【技术实现步骤摘要】
训练神经网络的方法、训练神经网络的系统以及神经网络


[0001]本公开涉及一种训练神经网络的方法、训练神经网络的系统以及神经网络。

技术介绍

[0002]已经提出通过使用在计算机系统上实现的神经网络来检测由相机获取的图像上的三维对象。通常,可取的是还获得与图像上可见的对象的6D姿态有关的信息。“6D姿态”是一种本领域技术人员公知的表示对象的三维位置和三维定向的组合的表达。获得6D姿态在其中检测和操纵对象的机器人领域中特别有用。对于在驾驶场景中确定对象的定向以允许自主或部分自主驾驶也是有用的。
[0003]图像上可见的对象的视点是这样一种期望的与6D姿态有关的信息。视点可以被定义为对象相对于用于获取图像的相机的方位角、仰角和面内旋转。神经网络也已经用于自动确定图像上可见的对象的视点。
[0004]对象视点估计是为了使自主系统能够理解三维(3D)世界而需要的关键组件之一。已观察到受控环境中的已知方法能够成功地检测对象的视点。这些已知方法受益于现代的可学习表征并已被证明有助于诸如对象检测和3D重建之类的其他视觉任务,并且已用于各种应用。例如,人工神经网络(下文中称为神经网络)已用于检测视点。
[0005]为了获得进行自动确定图像上可见的对象的视点的任务的神经网络,必须进行神经网络的训练阶段。该训练阶段通常使用一组打标记的训练图像来进行。所谓打标记是指为该组训练图像中的每个图像提供感兴趣对象的视点;所提供的视点被称为真值(ground truth)。然后,训练然后在于将来自训练集的图像输入到神经网络,将神经网络的输出与对应的真值进行比较,并基于该比较来适配神经网络的参数(例如使用公知的随机梯度法)。
[0006]本领域众所周知,为了获得神经网络的良好训练,需要大量打标记的训练图像。大规模的打标记的数据集已经成为计算机视觉任务中的先进技术发展的重要驱动力。但注记(annotate)数据是昂贵的(即,耗时的),并且不能扩展到越来越多的复杂的视觉概念。事实上,获得真值/标记通常涉及使用专用硬件、受控环境以及操作人员手动将3DCAD模型与真实世界对象对齐。
[0007]上述方法可以被称为有监督法。这些方法已被广泛研究,并应用于机器人或自主驾驶领域。这些方法可以成功地得出围绕被检测对象的3D边界框。
[0008]还存在学习知晓来自图像的对象的底层3D结构的表征(“3D感知表征”)的方法。已提出在有或没有姿态监督的情况下,使对象的姿态从其外观中分离出来(例如参见文献“Interpretable transformations with encoder

decoder networks”(Daniel E Worrall,Stephan J Garbin,Daniyar Turmukhambetov和Gabriel J Brostow.In Proceedings of the IEEE International Conference on Computer Vision,pages 5726

5735,2017)或文献“Deep Convolutional Inverse Graphics Network”(Tejas DKulkarni,William F Whitney,Pushmeet Kohli和Josh Tenenbaum.In Advances in neural information processing systems,pages 2539

2547,2015))。提出了各种解决方
案。然而,为了学习有意义的嵌入,这些解决方案仍然需要3D注记。事实上,已观察到3D旋转会引起剧烈的外观变化,这样的外观变化对网络来说过于复杂,在没有注记的情况下网络无法学习。
[0009]如何使用未标记的数据来训练神经网络进行诸如视点估计之类的任务仍然是所期望的,因为未标记的数据廉价并且易于获得。

技术实现思路

[0010]本公开提供一种(例如由计算机系统进行的)方法,用于训练第一神经网络,以在图像输入到第一神经网络时,检测在该图像上可见且居中(即,在该图像中居中),并且属于给定对象类别的对象的视点,所述方法包括:
[0011]提供多对图像的数据集,每对图像包括第一图像和第二图像,在第一图像上,属于所述类别的对象在第一视点下可见且居中(即,在第一图像中居中),在第二图像上,同一对象在与第一视点不同的第二视点下可见且居中(即,在第二图像中居中),
[0012]提供第二神经网络,第二神经网络被配置成在图像输入到第二神经网络时,能够得出(deliver)在该图像上可见并且属于所述类别的对象的外观信息,
[0013]提供第三神经网络,第三神经网络被配置成在对象的外观信息和视点输入到第三神经网络时,能够得出所述类别的对象(例如,以对象为中心)的合成图像,
[0014]通过适配第一神经网络、第二神经网络和第三神经网络的参数,联合训练第一神经网络、第二神经网络和第三神经网络,以便使以下两者之间的距离最小化:
[0015]出自所述多对图像的数据集的一对图像中的第一图像的至少一部分,该部分显示(作为一个整体)在图像上可见的对象,和
[0016]由第三神经网络得出的合成图像,第三神经网络接收通过将第一图像输入到第一神经网络而得出的视点和通过将该对图像中的第二图像输入到第二神经网络而得出的外观信息作为输入。
[0017]在多对图像的数据集的图像中,对象居中。例如,图像可以是另一个图像的裁剪结果,在所述另一个图像上检测到所述对象,并且所述对象被边界框围绕。该边界框也可以是手动放置的。合成图像将显示居中的对象,因为通过训练,它们将试图再现第一图像。
[0018]第一图像的所述部分可以是对第一图像应用分割掩模的结果,其中分割掩模在应用时只保持对象的像素。这允许获得没有背景的合成图像和不考虑第一图像的背景的训练。一旦训练完成,确定视点就不会受背景的存在所影响。
[0019]或者,如果多对图像的数据集的图像没有背景,则在使所述距离最小化时可以使用整个第一图像。在已从CAD图像渲染数据集的图像时,可以使用这种备选方案。在这种情况下,确定放置在有背景的图像的中央的对象的视点仍然是可以实现的。
[0020]应注意的是,第一神经网络对以对象为中心的图像(例如,由围绕被检测对象放置边界框的对象检测器输出的图像)进行操作(可以按照边界框裁剪图像)。
[0021]所述方法于是提出一种完全无监督的训练方法。数据集(也可以被称为训练数据集)可以是未标记的数据集。在来自该数据集的图像上可见的对象的视点是未知的。然而,在每对图像显示同一对象(就对来说,不同的对可以显示不同的对象)但在不同视点下的条件下,可以进行第一神经网络的训练。事实上,如果视点检测是准确的,则第三神经网络输
出的图像就会尽可能地接近原始的第一图像。训练然后将努力减小这两个图像之间的距离。
[0022]在上述方法中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于训练第一神经网络以在图像输入到第一神经网络时检测对象的视点的方法,所述对象在该图像上可见、居中并属于给定对象类别,其特征在于所述方法包括:提供多对图像的数据集,每对图像包括第一图像和第二图像,在第一图像上,属于所述类别的对象在第一视点下可见并居中,在第二图像上,同一对象在与第一视点不同的第二视点下可见并居中,提供第二神经网络,第二神经网络被配置成在图像输入到第二神经网络时,能够得出在该图像上可见并属于所述类别的对象的外观信息,提供第三神经网络,第三神经网络被配置成在对象的外观信息和视点输入到第三神经网络时,能够得出所述类别的对象的合成图像,通过适配第一神经网络、第二神经网络和第三神经网络的参数,联合训练第一神经网络、第二神经网络和第三神经网络,以便使以下两者之间的距离最小化:出自所述多对图像的数据集的一对图像中的第一图像的至少一部分,该部分显示在图像上可见的对象,和由第三神经网络得出的合成图像,第三神经网络接收通过将第一图像输入到第一神经网络而得出的视点和通过将该对图像中的第二图像输入到第二神经网络而得出的外观信息作为输入。2.按照权利要求1所述的方法,其特征在于使用感知损失来定义所述距离。3.按照权利要求1或2所述的方法,其特征在于第一神经网络被配置成得出多个视点假设,以及其中与最小距离关联的视点假设被用于适配所述参数。4.按照权利要求3所述的方法,其特征在于第一神经网络还被配置成能够得出被配置成能够指示最佳假设的指标。5.按照权利要求1

4任意之一所述的方法,其特征在于第三神经网络使用对象条件生成处理,以使用外观信息作为输入和/或使用视点作为输入。6.按照权利要求5所述的方法,其特征在于第三神经网络被配置成还接收通用代码作为输入,并包括被配置成接收所述通用代码作为输入的多个连续的三维卷积层,其中每个三维卷积层的输出被配置成通过使用用作第三神经网络的输入的外观信息作为参数的给定仿射变换进行变换,以便获得变换后输出,其中第三神经网络包括渲染模块,渲染模块被配置成接收最后的三维卷积层的变换后输出和用作第三神经网络的输入的视点作为输入。7.按照权利要求6所述的方法,其特征在于渲染模块包括旋转模块,旋转模块被配置成按照用作第三神经网络的输入的视点,对渲染模块接收的变换后输出进行旋转,并被配置成输出旋转后输出,透视模块,透视模块被配置成对旋转后输出应用透视,和光线追踪模...

【专利技术属性】
技术研发人员:斯文
申请(专利权)人:爱丁堡大学管理处
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1