【技术实现步骤摘要】
处理图像以定位新颖对象
[0001]本申请是申请日为2019年8月19日、申请号为201980074876.1、专利技术名称为“处理图像以定位新颖对象”的专利技术专利申请的分案申请
[0002]对相关申请的交叉引用
[0003]本申请要求于2019年1月31日提交的美国专利申请第16/264,222号的权益,并要求于2018年11月13日提交的题目为“PROCESSING IMAGES TO LOCALIZE NOVEL OBJECTS”的美国专利申请第62/760,594号的权益。出于所有目的,上述申请的公开通过引用被整体合并于此。
[0004]本说明书涉及图像处理。
技术介绍
[0005]对象定位系统是具有多个可训练参数的系统,其被配置为处理图像以定位(即,识别)图像中描绘的对象的位置。能够使用训练示例集合来训练对象定位系统,其中每个训练示例包括:(i)训练图像,和(ii)定义训练图像中描绘的对象的位置的训练对象定位数据。
技术实现思路
[0006]本说明书描述了在一个或多个位置中的一个或多个计算机上作为计算机程序实现的训练系统,所述计算机程序能够被用于训练对象定位系统。
[0007]根据第一方面,提供了一种由一个或多个数据处理装置执行的方法,所述方法包括:对包括多个视频帧的视频的每个视频帧,获得定义视频帧中描绘的对象的位置的对象定位数据;对视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像,所述光流图像表征视频中的视频帧和后续视频帧之间的视频帧的每个像素 ...
【技术保护点】
【技术特征摘要】
1.一种由一个或多个数据处理装置执行的方法,所述方法包括:对包括多个视频帧的视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像,所述光流图像表征视频中的该视频帧和后续视频帧之间的视频帧的每个像素的位移;对每个光流图像,使用光流对象定位系统处理所述光流图像以生成对象定位数据,所述对象定位数据定义在与所述光流图像相对应的视频帧中描绘的对象的位置;以及使用:(i)多个视频帧,以及(ii)由光流对象定位系统通过处理与多个视频帧相对应的光流图像生成的对象定位数据,训练视觉对象定位系统来处理视频帧,以生成定义在视频帧中描绘的对象的位置的对象定位数据。2.根据权利要求1所述的方法,其中,训练视觉对象定位系统包括对多个视频帧中的一个或多个:基于通过使用光流对象定位系统处理与视频帧相对应的光流图像生成的对象定位数据来确定视频帧的目标对象定位数据;以及训练视觉对象定位系统来处理视频帧,以生成与视频帧的目标对象定位数据匹配的视频帧的对象定位数据。3.根据权利要求2所述的方法,其中,基于通过使用光流对象定位系统处理与视频帧相对应的光流图像生成的对象定位数据来确定视频帧的目标对象定位数据包括:使用已知对象定位系统处理视频帧,以生成定义在视频帧中描绘的对象的位置的对象定位数据,其中,训练已知对象定位系统以定位来自预定的已知对象类集合的对象;识别在视频帧中描绘的新颖对象的位置,其中,新颖对象的位置:(i)被包括在由光流对象定位系统对视频帧生成的对象定位数据中,并且(ii)不被包括在由已知对象定位系统对视频帧生成的对象定位数据中;以及在目标对象定位数据中包括定义新颖对象位置的数据。4.根据权利要求2所述的方法,其中,目标对象定位数据包括通过使用光流对象定位系统处理与视频帧相对应的光流图像生成的对象定位数据。5.根据权利要求1所述的方法,其中,对视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像包括:使用直接数值优化方法处理视频以对多个视频帧中的每个视频帧生成对应的光流图像。6.根据权利要求1所述的方法,其中,使用:(i)光流图像,以及(ii)定义在与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据来训练光流对象定位系统。7.根据权利要求6所述的方法,其中,通过使用已知对象定位系统处理与光流图像相对应的视频帧来获得定义在所述视频帧中描绘的对象的位置的对象定位数据,其中,已知对象定位系统被配置为处理视频帧以生成定义在视频帧中描绘的对象的位置的数据,所述对象来自预定的对象类集合。8.根据权利要求7所述的方法,其中,所述已知对象定位系统包括神经网络。9.根据权利要求1所述的方法,其中,定义在与光流图像相对应的视频帧中描绘的对象的位置的对象定位数据包括:定义环绕在与光流图像相对应的视频帧中描绘的对象的位置的光流图像中的边界框
的数据。10.根据权利要求1所述的方法,还包括:使用训练的视觉对象定位系统处理图像,以生成定义在图像中描绘的对象的位置的对象定位数据,其中,所述图像不是视频帧。11.根据权利要求1所述的方法,其中,所述视觉对象定位系统包括神经网络。12.一种系统,包括:一个或多个计算机;以及一个或多个存储设备,通信地耦合到一个或多个计算机,其中,所述一个或多个存储设备存储指令,当所述指令由一个或多个计算机执行时,使至少一个或多个计算机执行操作,包括:对包括多个视频帧的视频进行处理,以对多个视频帧中的每个视频帧生成对应的光流图像,所述光流图像表征视频中的该视频帧和后续视频帧之间的视频帧的每个像素的位移;对每个光流图像,使用光流对象定位系统处理所述光流图像以生成对象定位数据,所述对象定位数据定义在...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。