基于检测和识别网络架构的细粒度图像分类方法技术

技术编号:19904444 阅读:39 留言:0更新日期:2018-12-26 03:13
本发明专利技术涉及一种基于检测和识别网络架构的细粒度图像分类方法,使用yolov2算法快速检测物体,消除背景干扰和无关信息对分类结果的影响,将检测到的待识别物体采用双线性卷积神经网络的细粒度图像分类算法进行分类。通过yolov2目标检测算法,能够滤除大部分对细粒度图像分类没有贡献的区域,使得双线性卷积神经网络能够提取到更多对分类有用的细粒度特征。不同于目前绝大多数细粒度图像分类算法,双线性卷积神经网络是一个整体的系统,能够完成端到端的训练,且在训练过程中只依赖于类别标注信息,而无需借助其他的人工标注信息,这不仅大大增强了算法的实用性,而且提高了模型的识别率。

【技术实现步骤摘要】
基于检测和识别网络架构的细粒度图像分类方法
本专利技术涉及一种图像分类技术,特别涉及一种基于检测和识别网络架构的细粒度图像分类方法。
技术介绍
图像分类是计算机视觉领域的一个经典研究课题。图像分类主要包括粗粒度图像分类和细粒度图像分类。细粒度图像分类,即子类的分类问题,是对一个大类别进行更加细致的子类划分,如区分鸟的种类、车的品牌款式、狗的品种等,因为图像采集中存在姿态、视角、光照、遮挡、背景干扰等差异因素,所以细粒度分类时往往具有细微的类间差异和较大的类内差异,和普通的图像分类相比,细粒度图像分类难度更大。早期基于人工特征的细粒度图像分类算法,由于人工特征选择过程繁琐,表述能力有限,因此分类效果不佳。随着近年来深度学习的兴起,从卷积神经网络中自动获得的特征,比人工特征有更强大的描述能力,按照模型训练时是否需要人工标注信息,基于深度学习的细粒度图像分类算法可分为强监督和弱监督两类,强监督的细粒度图像分类在模型训练时不仅需要图像的类别标签,还需要图像标注框,局部区域位置等人工标注信息,然而不论是强监督或弱监督的细粒度图像分类算法,大多数细粒度图像分类算法的思路都是先找到前景对象和图像中的局部区域,之后利用卷积神经网络对这些区域分别提取特征,并将这些特征进行一定处理,以此完成分类器的训练和预测。Zhang等提出的Part-basedR-CNN算法,该算法先采用R-CNN算法对图像进行检测,找到局部区域,再分别对每一块区域提取卷积特征,将不同区域的特征连接起来,构成一维特征表示,最后用SVM训练分类。然而,其利用的选择性搜索算法会产生大量无关的候选区域,造成运算上的浪费。Branson等提出的姿态归一化CNN算法,它通过原型对图像进行姿态对齐操作,为构造一个更加具区分度的特征,对不同的局部区域提取不同网络层的特征,但是,该算法利用DPM算法对关键点进行检测与实际标注的关键点信息差距较大。Xiao等提出两级注意力算法,其仅使用类别标签,算法模型分为三个处理阶段,分别是预处理、对象级和局部级三个不同的子模型,但两级注意力模型利用聚类算法得到局部区域,使准确度十分有限。然而,以上算法都只是利用卷积神经网络提取特征。前景对象、局部区域等的特征提取、特征融合、模型训练,各步骤之间的处理是一个分散的过程,不是一个整体的系统,未从整体上进行端到端的训练优化,这大大增加了细粒度图像分类的难度和复杂度。
技术实现思路
本专利技术是针对目前细粒度图像分类的问题,提出了一种基于检测和识别网络架构的细粒度图像分类方法,使用yolov2算法快速检测物体,消除背景干扰和无关信息对分类结果的影响,将检测到的待识别物体采用双线性卷积神经网络的细粒度图像分类算法进行分类。本专利技术的技术方案为:一种基于检测和识别网络架构的细粒度图像分类方法,具体包括如下步骤:1)采用yolov2目标检测算法预训练的模型对标准细粒度图像数据集进行处理,得到数据集中每一张图片中的判别性区域,得到了处理后的目标图像数据集;2)将处理后的目标图像数据集输入双线性卷积神经网络进行训练与分类,得到细粒度图像分类结果;双线性卷积神经网络结构由一个四元组β=(fA,fB,P,C)组成,其中,fA和fB是2个基于卷积神经网络的特征提取函数,分别对应CNN网络A和CNN网络B,P是一个池化函数,C则是分类函数;双线性卷积神经网络参数的训练通过分类损失函数r的梯度反向传播来实现;如果CNN网络A和CNN网络B两个网络的输出矩阵A和B,其大小分别为K×M和K×N,则双线性特征为x=φ(H)=ATB,大小为M×N;令dr/dx表示分类损失函数r对x的梯度,由梯度的链式法则,有:计算得到特征A和B的梯度,则整个网络进行端到端的训练。所述步骤1)中yolov2目标检测算法首先把输入图像划分成S×S的栅格,经过yolov2检测,对每个格子都预测Q个边界框,其中每个边界框都包含5个预测值:中心点横坐标tx、纵坐标ty,边界框的宽tw,高th,及置信值to,利用先验框来预测边界框,其采用k-means的方式对训练集图片中的真实标注框做聚类,可以找到合适的先验框;在实现k-means聚类时,通过IOU定义,使得误差和真实标注框box的大小无关,最终距离测度函数公式为:d(box,centrd)=1-IoU(box,centrd)其中:centrd表示聚类中心;box表示真实标注框;IoU(box,centrd)表示聚类中心框和标注框的交并比;表示预测的边界框的准确度,公式表示为:其中:bgr表示真实标注框的面积,bpr表示预测边界框的面积;通过对预测的边界框进行限制,相应的预测为:bx=σ(tx)+cxby=σ(ty)+cyC=σ(to)σ为logistic激活函数,tx、ty经过logistic激活函数后范围在0到1之间,cx和cy表示网格相对于图像左上角横纵坐标的偏移量,pw和ph表示先验框的宽和高;σ(to)为置信值;最终采用以下的损失函数完成对模型的训练:其中,s2表示将图像划分的栅格数,Q表示每个栅格预测的边界框个数,表示第i个栅格预测的第j个边界框的横坐标,bxij为相应的人工标注的横坐标;表示第i个栅格预测的第j个边界框的纵坐标,byij为相应的人工标注的纵坐标;表示第i个栅格预测的第j个边界框的宽,bwij为相应的人工标注框的宽;表示第i个栅格预测的第j个边界框的高,bhij为相应的人工标注框的高。表示第i栅格预测的第j个边界框中物体的置信值,Cij表示相应的真实物体的置信值;表示预测的栅格中包含物体且物体是某一类别的概率,pi(c)表示栅格真实条件类别概率;表示第i个栅格存在目标,且该栅格预测的第j个边界框负责预测该目标;表示第i个栅格预测的第j个边界框中不存在物体;表示物体是否出现在第i个栅格里,classes为yolov2模型的类别数;λcoord,λnoobj分别表示位置预测和物体预测正则化惩罚系数。所述步骤2)中双线性卷积神经网络运行步骤:特征提取函数fA和fB的输入为接收一个位置l∈L的图像块h,h∈H,其中,H表示整张输入图像,L为输入图像的位置区域表示,h表示输入图像上的一个图像块,l表示图像块的位置区域;特征提取函数输出K×D大小的特征图,通过矩阵外积将每一个位置点的特征输出汇聚,也就是在l区域fA和fB的双线性特征的融合,公式如下:bilinear(l,h,fA,fB)=fA(l,h)TfB(l,h)l∈L,h∈H其中fA和fB必须具有相同的特征维度K,K的值取决于具体的网络;池化函数P将所有位置的双线性特征汇聚以获得图像的全局特征φ(I),表示如下:在池化过程中,由于特征的位置信息被忽略,因此双线性特征φ(I)是一个无序的特征表示;如果fA和fB提取的特征维度分别为K×M和K×N,则φ(I)的大小为M×N的矩阵;令x表示φ(H),并对其进行带符号的开平方根及l2归一化处理,公式如下:z=y/||y||2经上述处理后,再将其转化为一个MN×1的列向量,作为最终的双线性特征向量,最后,通过softmax网络层进行分类。本专利技术的有益效果在于:本专利技术基于检测和识别网络架构的细粒度图像分类方法,通过yolov2目标检测算法,能够滤除大部分对细粒度图像分类没有贡献的区域本文档来自技高网
...

【技术保护点】
1.一种基于检测和识别网络架构的细粒度图像分类方法,其特征在于,具体包括如下步骤:1)采用yolov2目标检测算法预训练的模型对标准细粒度图像数据集进行处理,得到数据集中每一张图片中的判别性区域,得到了处理后的目标图像数据集;2)将处理后的目标图像数据集输入双线性卷积神经网络进行训练与分类,得到细粒度图像分类结果;双线性卷积神经网络结构由一个四元组β=(fA,fB,P,C)组成,其中,fA和fB是2个基于卷积神经网络的特征提取函数,分别对应CNN网络A和CNN网络B,P是一个池化函数,C则是分类函数;双线性卷积神经网络参数的训练通过分类损失函数r的梯度反向传播来实现;如果CNN网络A和CNN网络B两个网络的输出矩阵A和B,其大小分别为K×M和K×N,则双线性特征为x=φ(H)=ATB,大小为M×N;令dr/dx表示分类损失函数r对x的梯度,由梯度的链式法则,有:

【技术特征摘要】
1.一种基于检测和识别网络架构的细粒度图像分类方法,其特征在于,具体包括如下步骤:1)采用yolov2目标检测算法预训练的模型对标准细粒度图像数据集进行处理,得到数据集中每一张图片中的判别性区域,得到了处理后的目标图像数据集;2)将处理后的目标图像数据集输入双线性卷积神经网络进行训练与分类,得到细粒度图像分类结果;双线性卷积神经网络结构由一个四元组β=(fA,fB,P,C)组成,其中,fA和fB是2个基于卷积神经网络的特征提取函数,分别对应CNN网络A和CNN网络B,P是一个池化函数,C则是分类函数;双线性卷积神经网络参数的训练通过分类损失函数r的梯度反向传播来实现;如果CNN网络A和CNN网络B两个网络的输出矩阵A和B,其大小分别为K×M和K×N,则双线性特征为x=φ(H)=ATB,大小为M×N;令dr/dx表示分类损失函数r对x的梯度,由梯度的链式法则,有:计算得到特征A和B的梯度,则整个网络进行端到端的训练。2.根据权利要求1所述基于检测和识别网络架构的细粒度图像分类方法,其特征在于,所述步骤1)中yolov2目标检测算法首先把输入图像划分成S×S的栅格,经过yolov2检测,对每个格子都预测Q个边界框,其中每个边界框都包含5个预测值:中心点横坐标tx、纵坐标ty,边界框的宽tw,高th,及置信值to,利用先验框来预测边界框,其采用k-means的方式对训练集图片中的真实标注框做聚类,可以找到合适的先验框;在实现k-means聚类时,通过IOU定义,使得误差和真实标注框box的大小无关,最终距离测度函数公式为:d(box,centrd)=1-IoU(box,centrd)其中:centrd表示聚类中心;box表示真实标注框;IoU(box,centrd)表示聚类中心框和标注框的交并比;表示预测的边界框的准确度,公式表示为:其中:bgr表示真实标注框的面积,bpr表示预测边界框的面积;通过对预测的边界框进行限制,相应的预测为:bx=σ(tx)+cxby=σ(ty)+cyC=σ(to)σ为logistic激活函数,tx、ty经过logistic激活函数后范围在0到1之间,cx和cy表示网格相对于图像左上角横纵坐标的偏移量,pw和ph表示先...

【专利技术属性】
技术研发人员:王永雄张晓兵余玉琴马力
申请(专利权)人:上海理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1