处理图像以定位新颖对象制造技术

技术编号:35059387 阅读:20 留言:0更新日期:2022-09-28 11:10
一种方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于训练光流对象定位系统和新颖对象定位系统。在第一方面,训练光流对象定位系统处理光流图像以生成对象定位数据,所述对象定位数据定义与光流图像相对应的视频帧中描绘的对象的位置。在第二方面,训练新颖对象定位系统处理视频帧以生成对象定位数据,所述对象定位数据定义视频帧中描绘的新颖对象的位置。的新颖对象的位置。的新颖对象的位置。

【技术实现步骤摘要】
处理图像以定位新颖对象
[0001]本申请是申请日为2019年8月19日、申请号为201980074876.1、专利技术名称为“处理图像以定位新颖对象”的专利技术专利申请的分案申请
[0002]对相关申请的交叉引用
[0003]本申请要求于2019年1月31日提交的美国专利申请第16/264,222号的权益,并要求于2018年11月13日提交的题目为“PROCESSING IMAGES TO LOCALIZE NOVEL OBJECTS”的美国专利申请第62/760,594号的权益。出于所有目的,上述申请的公开通过引用被整体合并于此。


[0004]本说明书涉及图像处理。

技术介绍

[0005]对象定位系统是具有多个可训练参数的系统,其被配置为处理图像以定位(即,识别)图像中描绘的对象的位置。能够使用训练示例集合来训练对象定位系统,其中每个训练示例包括:(i)训练图像,和(ii)定义训练图像中描绘的对象的位置的训练对象定位数据。

技术实现思路

[0006]本说明书描述了在一个或多个位置中的一个或多个计算机上作为计算机程序实现的训练系统,所述计算机程序能够被用于训练对象定位系统。
[0007]根据第一方面,提供了一种由一个或多个数据处理装置执行的方法,所述方法包括:对包括多个视频帧的视频的每个视频帧,获得定义视频帧中描绘的对象的位置的对象定位数据;对视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像,所述光流图像表征视频中的视频帧和后续视频帧之间的视频帧的每个像素的位移;以及使用:(i)光流图像,以及(ii)定义与光流图像相对应的多个视频帧中描绘的对象的位置的对象定位数据,训练光流对象定位系统处理光流图像以生成定义在与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据。
[0008]在一些实现中,获得定义视频帧中描绘的对象的位置的对象定位数据可以包括使用已知对象定位系统处理视频帧。所述已知对象定位系统可以是先前训练的对象定位系统。例如,所述已知对象定位系统可以被配置为处理视频帧,以生成定义视频帧中描绘的对象的位置的数据,所述对象来自预定的对象类集合。在一些实现中,所述已知对象定位系统可以包括神经网络。
[0009]另外地或可替换地,获得定义视频帧中描绘的对象的位置的对象定位数据可以包括获得定义由人手动标注的视频帧中描绘的对象的位置的对象定位数据。定义视频帧中描绘的对象的位置的对象定位数据包括定义环绕视频帧中描绘的对象的位置的边界框的数据。更一般地,对象定位数据可以包括定义环绕被定位对象的形状的角的坐标的数据。
[0010]处理视频以对多个视频帧的每个视频帧生成对应的光流图像可以包括使用直接
数值优化方法处理视频以对多个视频帧的每个视频帧生成对应的光流图像。直接数值优化方法可以是在时域或频域中,例如使用局部空间/时间导数或通过区域匹配,将光流场拟合到来自视频帧的像素数据的方法。另外地或可替换地,所述光流对象定位系统可以包括神经网络。
[0011]所述方法还可以包括忽略对静止的或相对于其背景具有小于运动阈值程度的对象生成的对象定位数据。因此,所述方法还可以包括对由与光流图像相对应的视频帧的对象定位数据定义的每个对象位置,确定对象位置处(上方)光流图像中的光流数据的相应方差。然后,所述方法通过移除定义对象位置的数据修改用于训练光流对象定位系统的对象定位数据,其中,对象位置处的光流图像中的光流数据的方差不满足(最小)阈值。
[0012]在另一方面,一种由一个或多个数据处理装置执行的方法,所述方法包括:处理包括多个视频帧的视频,以对多个视频帧中的每个视频帧生成对应的光流图像,所述光流图像表征视频中的视频帧和后续视频帧之间视频帧的每个像素的位移;对每个光流图像,使用光流对象定位系统对光流图像进行处理,以生成定义与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据;以及使用:(i)多个视频帧,以及(ii)光流对象定位系统通过处理与多个视频帧相对应的光流图像而生成的对象定位数据,训练第二对象定位系统,例如,新颖对象定位系统,处理视频帧以生成定义视频帧中描述的对象的位置的对象定位数据。
[0013]光流对象定位系统可以使用:(i)光流图像和(ii)定义与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据来训练。如前所述,定义与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据可以通过使用已知对象定位系统处理视频帧获得。
[0014]因此,所述方法可以包括使用已知或训练的对象定位系统,所述系统可能无法检测(定位)特定对象,例如特定类别的对象,并且使用它来提供用于训练光流对象定位系统的对象定位数据。光流对象定位系统工作在不同的基础上,即光流,可以学习定位已知/训练的对象定位系统遗漏的对象。因此,光流对象定位系统可以被用于生成训练数据,所述训练数据能够被用于训练第二对象定位系统,例如通过进一步训练改进已知或训练的对象定位系统,和/或训练“新颖”的对象定位系统(其不基于光流)。
[0015]因此,在一些实现中,训练新颖对象定位系统包括对多个视频帧中的一个或多个:使用已知对象定位系统处理视频帧,以生成定义视频帧中描绘的对象的位置的对象定位数据,其中,训练已知对象定位系统定位来自预定已知对象类集合的对象;识别视频帧中描绘的新颖对象的位置,其中,新颖对象的位置:(i)被包括在由光流对象定位系统对视频帧生成的对象定位数据中,并且(ii)不被包括在由已知对象定位系统对视频帧生成的对象定位数据中;以及训练新颖对象定位系统处理视频帧以生成对象定位数据,对象定位数据包括定义视频帧中描绘的新颖对象的位置的数据。
[0016]可以训练新颖对象定位系统处理视频帧以生成对象定位数据,除了定义视频帧中描绘的新颖对象的位置的数据之外,所述对象定位数据包括已知对象定位系统通过处理视频帧而生成的对象定位数据。
[0017]所述方法还可以包括使用训练的第二对象定位系统处理图像,以生成定义图像中描绘的对象的位置的对象定位数据,其中,图像不是视频帧。因此,一旦训练,第二对象定位系统就可以被应用于任何类型的图像。
[0018]本说明书中描述的主题的特定实施例能够被实现,以便实现以下一个或多个优点。
[0019]本说明书描述了能够训练对象定位系统(在本说明书中称为“新颖对象定位系统”)以定位图像中的“新颖”对象的训练系统。图像中的新颖对象是指现有对象定位系统(在本说明书中称为“已知对象定位系统”)遗漏(即,未定位)的对象。通过识别已知对象定位系统当前发生故障的地方,能够使用新颖对象定位系统来提高已知对象定位系统的准确性。在特定示例中,由新颖对象定位系统定位的新颖对象能够被用作训练数据以提高已知对象定位系统在图像中定位对象的精度。这是图像处理领域的技术进步。
[0020]本说明书还描述了能够训练对象定位系统(在本说明书中称为“光流对象定位系统”)处理光流图像以定位在与光流图像相对应的视频帧中描绘的对象的训练系统。以这种方式训练的光流对象定位系统能本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种由一个或多个数据处理装置执行的方法,所述方法包括:对包括多个视频帧的视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像,所述光流图像表征视频中的该视频帧和后续视频帧之间的视频帧的每个像素的位移;对每个光流图像,使用光流对象定位系统处理所述光流图像以生成对象定位数据,所述对象定位数据定义在与所述光流图像相对应的视频帧中描绘的对象的位置;以及使用:(i)多个视频帧,以及(ii)由光流对象定位系统通过处理与多个视频帧相对应的光流图像生成的对象定位数据,训练视觉对象定位系统来处理视频帧,以生成定义在视频帧中描绘的对象的位置的对象定位数据。2.根据权利要求1所述的方法,其中,训练视觉对象定位系统包括对多个视频帧中的一个或多个:基于通过使用光流对象定位系统处理与视频帧相对应的光流图像生成的对象定位数据来确定视频帧的目标对象定位数据;以及训练视觉对象定位系统来处理视频帧,以生成与视频帧的目标对象定位数据匹配的视频帧的对象定位数据。3.根据权利要求2所述的方法,其中,基于通过使用光流对象定位系统处理与视频帧相对应的光流图像生成的对象定位数据来确定视频帧的目标对象定位数据包括:使用已知对象定位系统处理视频帧,以生成定义在视频帧中描绘的对象的位置的对象定位数据,其中,训练已知对象定位系统以定位来自预定的已知对象类集合的对象;识别在视频帧中描绘的新颖对象的位置,其中,新颖对象的位置:(i)被包括在由光流对象定位系统对视频帧生成的对象定位数据中,并且(ii)不被包括在由已知对象定位系统对视频帧生成的对象定位数据中;以及在目标对象定位数据中包括定义新颖对象位置的数据。4.根据权利要求2所述的方法,其中,目标对象定位数据包括通过使用光流对象定位系统处理与视频帧相对应的光流图像生成的对象定位数据。5.根据权利要求1所述的方法,其中,对视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像包括:使用直接数值优化方法处理视频以对多个视频帧中的每个视频帧生成对应的光流图像。6.根据权利要求1所述的方法,其中,使用:(i)光流图像,以及(ii)定义在与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据来训练光流对象定位系统。7.根据权利要求6所述的方法,其中,通过使用已知对象定位系统处理与光流图像相对应的视频帧来获得定义在所述视频帧中描绘的对象的位置的对象定位数据,其中,已知对象定位系统被配置为处理视频帧以生成定义在视频帧中描绘的对象的位置的数据,所述对象来自预定的对象类集合。8.根据权利要求7所述的方法,其中,所述已知对象定位系统包括神经网络。9.根据权利要求1所述的方法,其中,定义在与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据包括:定义环绕在与光流图像相对应的视频帧中描绘的对象的位置的光流图像中的边界框
的数据。10.根据权利要求1所述的方法,还包括:使用训练的视觉对象定位系统处理图像,以生成定义在图像中描绘的对象的位置的对象定位数据,其中,所述图像不是视频帧。11.根据权利要求1所述的方法,其中,所述视觉对象定位系统包括神经网络。12.一种系统,包括:一个或多个计算机;以及一个或多个存储设备,通信地耦合到一个或多个计算机,其中,所述一个或多个存储设备存储指令,当所述指令由一个或多个计算机执行时,使至少一个或多个计算机执行操作,包括:对包括多个视频帧的视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像,所述光流图像表征视频中的该视频帧和后续视频帧之间的视频帧的每个像素的位移;对每个光流图像,使用光流对象定位系统处理所述光流图像以生成对象定位数据,所述对象定位数据定义在...

【专利技术属性】
技术研发人员:SM里科BA赛博尔德
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1