当前位置: 首页 > 专利查询>英特尔公司专利>正文

使用深度学习属性来进行视觉识别制造技术

技术编号:18466131 阅读:37 留言:0更新日期:2018-07-18 16:05
描述了一种用于使用深度学习属性来执行视觉识别的处理设备以及用于执行该处理设备的方法。在一个实施例中,处理设备包括:接口,该接口用于接收输入图像;以及识别单元,该识别单元耦合至接口并且能操作用于对输入图像执行视觉对象识别,该识别单元具有:提取器,该提取器用于从输入图像提取区域建议;卷积神经网络(CNN),该卷积神经网络(CNN)用于为每个所提取区域建议计算特征,该CNN能操作用于创建柔性最大层输出;交叉区域池化单元,该交叉区域池化单元能操作用于对柔性最大层输出执行池化以创建输入图像的一组属性;以及图像分类器,该图像分类器能操作用于基于输入图像的属性执行图像分类。

Use depth learning attributes for visual recognition

A processing device for performing visual recognition using deep learning attributes and a method for executing the processing device are described. In one embodiment, the processing device includes: an interface, which is used to receive an input image; and an identification unit that is coupled to an interface and can be operated to perform visual object recognition for the input image. The recognition unit has a extractor, which is used in the input image extraction area suggestion; CNN, the convolution neural network (CNN) is used to propose computing features for each extracted area. The CNN can be used to create a flexible maximum layer output; a cross area pool cell, which can operate for a set of attributes of the input image to create a set of attributes of the input image for the maximum flexible layer output pool. And image classifier, which can be used to perform image classification based on the attributes of input images.

【技术实现步骤摘要】
【国外来华专利技术】使用深度学习属性来进行视觉识别
本专利技术的实施例涉及视觉识别;更具体地,本专利技术的实施例涉及使用区域建议和来自卷积神经网络(CNN)模型的柔性最大层的输出来执行视觉识别。专利技术背景自2012年Krizhevsky等人就ImageNet大规模视觉识别挑战(ILSVRC)开展工作以来,已进行对卷积神经网络(CNN)的附加研究。例如,研究已考察将像ImageNet这样的大规模数据集上的预训练CNN模型转移至具有有限新训练数据的其他视觉识别任务。研究看起来集中于将预训练CNN模型的中间层激活作为丰富特征表示来应用于各种应用,诸如对象检测、对象识别、图像检索等。为了实现先进和稳健的性能,人们根据他们自己的任务微调预训练CNN模型或进行外延数据增强以获得稳健分类器。与使用标准特征表示(诸如词袋(bagofwords)、稀疏编码等)的常规方法相比,这些开发的技术已经显示出有希望的结果。然而,来自中间层的神经码具有较少的语义意义,这可能导致众所周知的语义鸿沟。另外,当对中间层神经码采用金字塔或网格扩展时,这些方法可能会遇到维度问题的祸害。附图说明从以下给出的详细描述并从本专利技术的各实施例的附图,可更全面地理解本专利技术,然而它们不应该被理解为将本专利技术限于具体的实施例,而是仅用于解释和理解。图1例示出分类的传统现成CNN方法。图2是分类过程的一个实施例的流程图。图3示出深度属性框架的一个实施例。图4是用于对输入图像执行视觉对象识别的过程的一个实施例的流程图。图5是处理设备的一个实施例的框图。图6例示出系统的一个实施例。具体实施方式在接下来的描述中,陈述许多细节以提供对本专利技术的更为透彻的解释。然而,对本领域技术人员将显而易见的是,在没有这些特定细节的情况下也可实施本专利技术。为了避免使本专利技术变得模糊,在其他实例中,以框图形式,而不是详细地示出公知的结构和设备。本专利技术的实施例通过将语义输出与区域建议整合以实现紧凑但有效的视觉表示来执行视觉识别。在一个实施例中,语义输出包括来自预训练CNN模型的柔性最大层的输出。在一个实施例中,视觉表示包括“深度属性”(DA)数据。因此,本文所描述的技术将区域建议与训练CNN模型的柔性最大层输出组合为用于视觉识别任务的特征。图1例示出分类的传统现成CNN方法。参看图1,输入图像101被输入至CNN102。作为响应,CNN102产生中间层输出。线性分类器103接收CNN中间层输出并使用它来执行分类。图2是分类过程的一个实施例的流程图。参看图2,输入图像201经历区域提取202以生成输入图像201的多个区域。这些区域在本文中被称为区域建议。在一个实施例中,提取区域建议通过使用本领域众所周知的选择性搜索来完成。欲了解更多信息,请参阅J.Uijlings等人的“用于对象识别的选择性搜索(SelectiveSearchforObjectRecognition)”,IJCV,2013。在一个实施例中,提取区域建议通过使用本领域众所周知的边缘盒(edge-box)来完成。欲了解更多信息,请参阅C.Zitnick和P.Dollar的“边缘盒:从边缘定位对象建议(Edgeboxes:LocatingObjectProposalsFromEdges)”,ECCV,2014。区域中的每一个被馈送至预训练CNN模型203以执行特征提取。作为响应,CNN模型203生成柔性最大层输出。区域中的每一个的柔性最大层输出指示区域特征。在一个实施例中,CNN模型203计算每个区域对多个预定义类别(例如,1000个类别)的响应以生成相似性分数。因此,为每个区域产生具有针对预定义类别中的每一个的相似性分数的输出。在一个实施例中,柔性最大层输出包括经计算的神经码,该经计算的神经码是对用于训练CNN的类别的概率响应(例如,来自ImageNet的高级语义)。接下来,将池化204应用于来自CNN模型203的柔性最大层输出以产生输入图像201的表示。在一个实施例中,池化204包括交叉建议最大池化(cross-proposalmax-pooling),该交叉建议最大池化被应用于区域性神经码以获得图像的整体表示。更具体地,池化204通过跨所有区域对每个属性取最大分数以创建一组数据来聚集所有属性的相似性分数,这一组数据包含跨整个输入图像(或其经历图像分类的部分)针对属性中的每一个的高分数。在一个实施例中,这表示深度属性数据。注意,交叉建议最大池化将抑制大部分噪声区域,同时保持大部分有意义区域。交叉池化操作的结果被馈送至分类器205。分类器205对池化204的结果执行分类操作。在一个实施例中,分类器205包括执行图像分类的线性分类器。在一个实施例中,分类器205对照对象类别(例如,人、马等)的阈值比较每个属性的分数,并且如果分数高于对象类别的阈值,则分类器205确定输入图像具有该类对象。在一个实施例中,分类器205将图像分类的结果作为元数据追加或添加至输入图像201。例如,如果分类器205确定图像具有人和马,则信息被添加至图像的元数据以指示此确定。注意,信息可被添加至被用于传输图像的分组(例如,分组头部、分组字段等)。图3例示出与图2相关联的深度属性框架的一个实施例。参考图3,在一个实施例中,分类器是线性SVM分类器y=wx,其中x是输入特征向量,w是针对特定类别c所学习的SVM系数或权重,并且wx是w与x之间的点积,其中w和x具有相同维度。wx的点积产生分数y。图3的最后一列示出在20个类别上的分数。如果分数大于零,则意味着对应的类别在图像上出现或被激活。所公开的过程在用于对象识别的PASCALVOC2007和2012基准上进行评估,该基准包含20个类别的图像,这些类别包括动物、手工对象和自然对象。这些对象处于不同位置和尺度并具有杂乱背景。此外,一个图像中通常存在多个对象,这使得问题变得困难。即使使用边界框对对象进行注释,本文所公开的对象识别过程的一个实施例也不将此信息用于我们的实验中。下表1列出了与一些现有技术方法相比的在PASCALVOC2007和2012两者上的结果,连同它们的CNN设置。如所示,本文所公开的技术相当简单,不具有微调和数据增强。所公开的方法以显着的余量(margin)(90.3%)胜过目前现有技术方法甚深(very-deep)(89.3%),而无需使用如本领域中众所周知的甚深实验中的复杂多尺度、多系列(multi-crop)数据增强和融合策略。欲了解甚深实验的更多信息,请参阅Simonyan等人的“用于大规模图像识别的甚深卷积网络(VeryDeepConvolutionalNetworksforLarge-ScaleImageRecognition)”,ICLR2015。表1:PASCALVOC2007和2012上的比较结果,以及详细的CNN设置本技术通过使用牛津花卉数据集在细粒花卉识别任务上进一步被评估,该牛津花卉数据集包含102个花卉类别,每个类别包含40至258幅图像。花卉以不同的尺度、姿势和照明条件呈现。评估遵循此基准的标准协议,并在下表2中的牛津102花卉数据集上报告平均准确度。其示出所建议的方法以大约4%的大余量胜过现有方法。表2:针对花卉识别的102个类别上的比较结果在一个实施例中,分类过程包括多尺度扩展本文档来自技高网...

【技术保护点】
1.一种处理设备,所述处理设备包括:接口,所述接口用于接收输入图像;以及识别单元,所述识别单元耦合至所述接口并且能操作用于对所述输入图像执行视觉对象识别,所述识别单元具有:提取器,所述提取器用于从所述输入图像提取区域建议;卷积神经网络(CNN),所述卷积神经网络(CNN)用于为每个所提取区域建议计算特征,所述CNN能操作用于创建柔性最大层输出;交叉区域池化单元,所述交叉区域池化单元能操作用于对所述柔性最大层输出执行池化以创建所述输入图像的一组属性;以及图像分类器,所述图像分类器能操作用于基于所述输入图像的属性执行图像分类。

【技术特征摘要】
【国外来华专利技术】1.一种处理设备,所述处理设备包括:接口,所述接口用于接收输入图像;以及识别单元,所述识别单元耦合至所述接口并且能操作用于对所述输入图像执行视觉对象识别,所述识别单元具有:提取器,所述提取器用于从所述输入图像提取区域建议;卷积神经网络(CNN),所述卷积神经网络(CNN)用于为每个所提取区域建议计算特征,所述CNN能操作用于创建柔性最大层输出;交叉区域池化单元,所述交叉区域池化单元能操作用于对所述柔性最大层输出执行池化以创建所述输入图像的一组属性;以及图像分类器,所述图像分类器能操作用于基于所述输入图像的属性执行图像分类。2.如权利要求1所述的处理设备,其特征在于,所述柔性最大层输出包括区域神经码。3.如权利要求1所述的处理设备,其特征在于,所述交叉区域池化单元通过对来自所述CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化来对所述CNN的所述柔性最大层的所述输出执行池化。4.如权利要求3所述的处理设备,其特征在于,所述交叉区域池化单元根据区域尺寸在不同的尺度区间上执行交叉区域最大池化。5.如权利要求1所述的处理设备,其特征在于,所述区域提取器通过使用具有分段的选择性搜索生成可能的对象位置或者通过基于边缘定位对象来从所述输入图像提取区域建议。6.如权利要求1所述的处理设备,其特征在于,所述图像分类器能操作用于对每个区域进行分类以确定所述每个区域是否具有来自图像分类器的正响应。7.如权利要求6所述的处理设备,其特征在于,所述图像分类器是通过使用从所述交叉区域池化单元获得的属性来构建的。8.如权利要求6所述的处理设备,其特征在于,所述图像分类器是基于确定每个区域是否具有来自所述图像分类器的所述正响应的结果来训练的。9.如权利要求1所述的处理设备,其特征在于,所述图像分类器能操作用于通过基于所述属性与分类器系数的比较生成针对多个类别中的每一个类别的分数来执行图像分类。10.一种用于对输入图像执行视觉对象识别的方法,所述方法包括:从所述输入图像提取区域建议;使用预训练卷...

【专利技术属性】
技术研发人员:J·李J·罗Y·陈
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1