A processing device for performing visual recognition using deep learning attributes and a method for executing the processing device are described. In one embodiment, the processing device includes: an interface, which is used to receive an input image; and an identification unit that is coupled to an interface and can be operated to perform visual object recognition for the input image. The recognition unit has a extractor, which is used in the input image extraction area suggestion; CNN, the convolution neural network (CNN) is used to propose computing features for each extracted area. The CNN can be used to create a flexible maximum layer output; a cross area pool cell, which can operate for a set of attributes of the input image to create a set of attributes of the input image for the maximum flexible layer output pool. And image classifier, which can be used to perform image classification based on the attributes of input images.
【技术实现步骤摘要】
【国外来华专利技术】使用深度学习属性来进行视觉识别
本专利技术的实施例涉及视觉识别;更具体地,本专利技术的实施例涉及使用区域建议和来自卷积神经网络(CNN)模型的柔性最大层的输出来执行视觉识别。专利技术背景自2012年Krizhevsky等人就ImageNet大规模视觉识别挑战(ILSVRC)开展工作以来,已进行对卷积神经网络(CNN)的附加研究。例如,研究已考察将像ImageNet这样的大规模数据集上的预训练CNN模型转移至具有有限新训练数据的其他视觉识别任务。研究看起来集中于将预训练CNN模型的中间层激活作为丰富特征表示来应用于各种应用,诸如对象检测、对象识别、图像检索等。为了实现先进和稳健的性能,人们根据他们自己的任务微调预训练CNN模型或进行外延数据增强以获得稳健分类器。与使用标准特征表示(诸如词袋(bagofwords)、稀疏编码等)的常规方法相比,这些开发的技术已经显示出有希望的结果。然而,来自中间层的神经码具有较少的语义意义,这可能导致众所周知的语义鸿沟。另外,当对中间层神经码采用金字塔或网格扩展时,这些方法可能会遇到维度问题的祸害。附图说明从以下给出的详细描述并从本专利技术的各实施例的附图,可更全面地理解本专利技术,然而它们不应该被理解为将本专利技术限于具体的实施例,而是仅用于解释和理解。图1例示出分类的传统现成CNN方法。图2是分类过程的一个实施例的流程图。图3示出深度属性框架的一个实施例。图4是用于对输入图像执行视觉对象识别的过程的一个实施例的流程图。图5是处理设备的一个实施例的框图。图6例示出系统的一个实施例。具体实施方式在接下来的描述中,陈述许多细 ...
【技术保护点】
1.一种处理设备,所述处理设备包括:接口,所述接口用于接收输入图像;以及识别单元,所述识别单元耦合至所述接口并且能操作用于对所述输入图像执行视觉对象识别,所述识别单元具有:提取器,所述提取器用于从所述输入图像提取区域建议;卷积神经网络(CNN),所述卷积神经网络(CNN)用于为每个所提取区域建议计算特征,所述CNN能操作用于创建柔性最大层输出;交叉区域池化单元,所述交叉区域池化单元能操作用于对所述柔性最大层输出执行池化以创建所述输入图像的一组属性;以及图像分类器,所述图像分类器能操作用于基于所述输入图像的属性执行图像分类。
【技术特征摘要】
【国外来华专利技术】1.一种处理设备,所述处理设备包括:接口,所述接口用于接收输入图像;以及识别单元,所述识别单元耦合至所述接口并且能操作用于对所述输入图像执行视觉对象识别,所述识别单元具有:提取器,所述提取器用于从所述输入图像提取区域建议;卷积神经网络(CNN),所述卷积神经网络(CNN)用于为每个所提取区域建议计算特征,所述CNN能操作用于创建柔性最大层输出;交叉区域池化单元,所述交叉区域池化单元能操作用于对所述柔性最大层输出执行池化以创建所述输入图像的一组属性;以及图像分类器,所述图像分类器能操作用于基于所述输入图像的属性执行图像分类。2.如权利要求1所述的处理设备,其特征在于,所述柔性最大层输出包括区域神经码。3.如权利要求1所述的处理设备,其特征在于,所述交叉区域池化单元通过对来自所述CNN的柔性最大层的输出的区域神经码执行交叉区域最大池化来对所述CNN的所述柔性最大层的所述输出执行池化。4.如权利要求3所述的处理设备,其特征在于,所述交叉区域池化单元根据区域尺寸在不同的尺度区间上执行交叉区域最大池化。5.如权利要求1所述的处理设备,其特征在于,所述区域提取器通过使用具有分段的选择性搜索生成可能的对象位置或者通过基于边缘定位对象来从所述输入图像提取区域建议。6.如权利要求1所述的处理设备,其特征在于,所述图像分类器能操作用于对每个区域进行分类以确定所述每个区域是否具有来自图像分类器的正响应。7.如权利要求6所述的处理设备,其特征在于,所述图像分类器是通过使用从所述交叉区域池化单元获得的属性来构建的。8.如权利要求6所述的处理设备,其特征在于,所述图像分类器是基于确定每个区域是否具有来自所述图像分类器的所述正响应的结果来训练的。9.如权利要求1所述的处理设备,其特征在于,所述图像分类器能操作用于通过基于所述属性与分类器系数的比较生成针对多个类别中的每一个类别的分数来执行图像分类。10.一种用于对输入图像执行视觉对象识别的方法,所述方法包括:从所述输入图像提取区域建议;使用预训练卷...
【专利技术属性】
技术研发人员:J·李,J·罗,Y·陈,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。