用于辨识新对象的机器视觉系统技术方案

技术编号:25127786 阅读:22 留言:0更新日期:2020-08-05 02:57
描述了一种用于对图像中的新对象进行分类的系统。在操作中,该系统使用多层网络从多个未标注图像提取显著图块。将多层网络的激活聚类成关键属性,在显示器上向用户显示该关键属性,从而提示用户利用类标签来对关键属性进行标注。然后基于所提示的关键属性的用户标注生成属性数据库。然后可以使测试图像通过该系统,以允许该系统通过在属性数据库中识别对象类来对测试图像中的至少一个对象进行分类。最终,可以基于测试图像中的至少一个对象的分类来使设备进行操作或操纵。

【技术实现步骤摘要】
【国外来华专利技术】用于辨识新对象的机器视觉系统相关申请的交叉引用本申请要求于2018年2月6日提交的美国非临时专利申请62/627,150的权益,其全部内容通过引用并入本文中。
技术介绍
(1)
本专利技术涉及对象辨识系统,并且更具体地,涉及用于辨识新对象的机器视觉系统。(2)相关技术的描述对象辨识系统通常用于基于各种对象特征来识别场景或设置中的对象。最近,已经在基于对象的部分或属性来描述对象方面进行了大量工作。例如,Farhadi等人使用对象属性(例如,“具有头”、“具有毛”和“四条腿的”)来描述对象,并且仅基于一些标注数据使用这些属性来学习对象的新类(参见所并入的参考文献的列表,参考文献6)。另一相关的方法是Russakovsky等人的方法(参见参考文献1)。Russakovsky等人的作者使用亚马逊土耳其机器人(AMT:AmazonMechanicalTurk)来标注预定义属性在大量图像中的存在或不存在。接下来,以有监督方式学习针对属性的二进制分类器,并使用这些分类器来执行零次转移(zero-shottransfer)。各种零次学习(ZSL:zero-shotlearning)技术还使用人类标注或设计的属性,例如,Romera-Paredes等人的工作结果(参见参考文献5)或Akata等人的工作结果(参见参考文献4)。然而,这些属性学习方法需要大量标注图像以及许多预定义属性(这可能与手头的辨识任务无关)。因此,持续需要一种系统,该系统利用预训练的对象检测网络从数据中获得未标注的关键属性的小集合,而操作者仅标注该关键属性的小集合,然后将该关键属性的小集合用于识别对象的新类。
技术实现思路
本公开提供了一种用于对图像中的新对象进行分类的系统。在各个方面,该系统包括存储器和一个或更多个处理器。存储器是编码有可执行指令的非暂时性计算机可读介质,使得在执行指令时,一个或更多个处理器执行多个操作,该多个操作包括:使用多层网络从多个未标注的图像提取显著图块(patch);将多层网络的激活聚类成关键属性;以及在显示器上向用户显示关键属性,并且提示用户利用类标签对关键属性进行标注;以及基于用户生成的关键属性的标注来生成属性数据库。在另一方面,该系统还执行以下操作:从测试图像提取显著图块,该测试图像具有与显著图块相关联的至少一个对象;将显著图块映射到二进制属性向量,该二进制属性向量指示关键属性在测试图像中的存在或不存在;以及通过在属性数据库中识别与该二进制属性向量对应的对象类,对测试图像中的至少一个对象进行分类。此外,该系统基于测试图像中的该至少一个对象的分类来控制设备。在又一方面,基于优化例程对至少一个对象进行分类,该优化例程最小化类的属性(例如,文本或视觉)的二进制属性向量与测试图像的关键属性的二进制属性向量之间的距离。视觉属性的示例是被聚类成K个质心的图像部分/区段/图块。在另一方面,控制设备包括基于测试图像中的至少一个对象的分类来使设备进行操纵。在另一方面,属性数据库包括由对象类和描述各个对象的对应文本属性构成的库。此外,从强度图像提取显著图块。在另一方面,多层网络是神经网络,并且针对图像中的各个图像像素或像素组基于该神经网络的激活来提取显著图块。最后,本专利技术还包括计算机程序产品和计算机实现方法。该计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令,该计算机可读指令可以由具有一个或更多个处理器的计算机执行,使得在执行这些指令时,该一个或更多个处理器执行本文列出的操作。另选地,计算机实现方法包括使计算机执行这种指令并执行所得到的操作的动作。附图说明从以下参照附图对本专利技术的多个方面的详细描述,将容易理解本专利技术的目的、特征和优点,其中:图1是示出了根据本专利技术的多种实施方式的系统的组件的框图。图2是具体实现本专利技术一个方面的计算机程序产品的例示;图3是例示了根据本专利技术的多种实施方式的系统的信息流的流程图;图4是例示了根据本专利技术的实施方式的从输入图像生成显著图块的示例处理的流程图;图5是示出了根据本专利技术的实施方式的向操作者示出以用于标注的样本群集的示例的例示;以及图6是示出了根据本专利技术的各种实施方式的被控制的设备的例示。具体实施方式本专利技术涉及对象辨识系统,并且更具体地,涉及用于辨识新对象的机器视觉系统。呈现以下描述以使得本领域的普通技术人员能够做出和使用本专利技术并将本专利技术并入到特定应用的上下文中。对于本领域技术人员而言,多种修改以及在不同应用中的多种使用将是显而易见的,并且本文中限定的一般原理可以应用于广泛方面。因此,本专利技术不旨在限于所呈现的方面,而是应根据与本文所公开的原理和新颖特征一致的最广范围。在下面的详细描述中,阐述了许多具体细节以便提供对本专利技术的更透彻理解。然而,对于本领域技术人员显而易见的是,可以在不必限于这些特定细节的情况下实践本专利技术。在其它实例中,以框图的形式而不是详细地示出了众所周知的结构和设备,以便避免模糊本专利技术。读者的注意力被引导到与本说明书同时提交并随本说明书公开以供公众检查的所有论文和文献,并且所有这种论文和文献的内容均通过引用并入本文。除非另有明确说明,否则本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图)可以由具有相同、等效或类似目的的另选特征代替。因此,除非另有明确说明,否则所公开的各个特征仅是通用系列等效或类似特征的一个示例。此外,权利要求中未明确说明用于执行特定功能的“装置”或用于执行特定功能的“步骤”的任何要素均不被解释成在35U.S.C第112条第6款中规定的“装置”或“步骤”条款。尤其是,此处权利要求中“的步骤”或“的动作”的使用不旨在援引35U.S.C第112条第6款的规定。在详细描述本专利技术之前,首先提供所引用的参考文献的列表。接下来,提供对本专利技术的多个主要方面的描述。随后,介绍为读者提供了对本专利技术的一般理解。最后,提供了本专利技术的多个实施方式的具体细节,以给出对具体方面的理解。(1)所并入的参考文献的列表贯穿本申请引用了以下参考文献。为了清楚和方便起见,参考文献在此被列出为读者的中心资源。以下参考文献通过引用并入本文,如同在本文中充分阐述一样。通过引用如下所示的对应文献参考编号在本申请中引用这些参考文献:1.Russakovsky,Olga,andLiFei-Fei.“Attributelearninginlarge-scaledatasets.”InEuropeanConferenceonComputerVision,pp.1-14.SpringerBerlinHeidelberg,2010.2.Simonyan,Karen,andAndrewZisserman.“Verydeepconvolutionalnetworksforlarge-scaleimagerecognition.”arXivpreprintarXiv:1409.1556(2014本文档来自技高网
...

【技术保护点】
1.一种用于对图像中的新对象进行分类的系统,所述系统包括:/n存储器和一个或更多个处理器,所述存储器是编码有可执行指令的非暂时性计算机可读介质,使得在执行所述指令时,所述一个或更多个处理器执行以下操作:/n使用多层网络从多个未标注图像提取显著图块;/n将所述多层网络的激活聚类成关键属性;以及/n在显示器上向用户显示所述关键属性,并且提示所述用户利用类标签对所述关键属性进行标注;/n基于用户生成的所述关键属性的标注来生成属性数据库;/n从测试图像提取显著图块,所述测试图像具有与所述显著图块相关联的至少一个对象;/n将所述显著图块映射到二进制属性向量,所述二进制属性向量指示关键属性在所述测试图像中的存在或不存在;/n通过在所述属性数据库中识别与所述二进制属性向量对应的对象类,对所述测试图像中的至少一个对象进行分类;以及/n基于所述测试图像中的所述至少一个对象的分类来控制设备。/n

【技术特征摘要】
【国外来华专利技术】20180206 US 62/627,1501.一种用于对图像中的新对象进行分类的系统,所述系统包括:
存储器和一个或更多个处理器,所述存储器是编码有可执行指令的非暂时性计算机可读介质,使得在执行所述指令时,所述一个或更多个处理器执行以下操作:
使用多层网络从多个未标注图像提取显著图块;
将所述多层网络的激活聚类成关键属性;以及
在显示器上向用户显示所述关键属性,并且提示所述用户利用类标签对所述关键属性进行标注;
基于用户生成的所述关键属性的标注来生成属性数据库;
从测试图像提取显著图块,所述测试图像具有与所述显著图块相关联的至少一个对象;
将所述显著图块映射到二进制属性向量,所述二进制属性向量指示关键属性在所述测试图像中的存在或不存在;
通过在所述属性数据库中识别与所述二进制属性向量对应的对象类,对所述测试图像中的至少一个对象进行分类;以及
基于所述测试图像中的所述至少一个对象的分类来控制设备。


2.根据权利要求1所述的系统,其中,基于优化例程对所述至少一个对象进行分类,所述优化例程最小化类的文本属性的所述二进制属性向量与所述测试图像的所述关键属性的所述二进制属性向量之间的距离。


3.根据权利要求1所述的系统,其中,控制所述设备包括:基于所述测试图像中的所述至少一个对象的所述分类来使所述设备进行操纵。


4.根据权利要求1所述的系统,其中,所述属性数据库包括由对象类和描述各个对象的对应文本属性构成的库。


5.根据权利要求1所述的系统,其中,所述多层网络是神经网络,并且针对图像中的各个图像像素或像素组基于所述神经网络的激活来提取显著图块。


6.一种用于对图像中的新对象进行分类的计算机程序产品,所述计算机程序产品包括:
非暂时性计算机可读介质,所述非暂时性计算机可读介质上编码有可执行指令,使得在由一个或更多个处理器执行所述可执行指令时,所述一个或更多个处理器执行以下操作:
使用多层网络从多个未标注图像提取显著图块;
将所述多层网络的激活聚类成关键属性;以及
在显示器上向用户显示所述关键属性,并且提示所述用户利用类标签对所述关键属性进行标注;
基于用户生成的所述关键属性的标注来生成属性数据库;
从测试图像提取显著图块,所述测试图像具有与所述显著图块相关联的至少一个对象;
将所述显著图块映射到二进制属性向量,所述二进制属性向量指示关键属性在所述测试图像中的存在或不存在;
通过在所述属性数据库中识别与所述二进制属性...

【专利技术属性】
技术研发人员:S·科洛瑞C·E·马丁金劲男H·霍夫曼
申请(专利权)人:赫尔实验室有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1