基于检测和识别网络架构的细粒度图像分类方法技术

技术编号：19904444 阅读：39 留言：0更新日期：2018-12-26 03:13

本发明专利技术涉及一种基于检测和识别网络架构的细粒度图像分类方法，使用yolov2算法快速检测物体，消除背景干扰和无关信息对分类结果的影响，将检测到的待识别物体采用双线性卷积神经网络的细粒度图像分类算法进行分类。通过yolov2目标检测算法，能够滤除大部分对细粒度图像分类没有贡献的区域，使得双线性卷积神经网络能够提取到更多对分类有用的细粒度特征。不同于目前绝大多数细粒度图像分类算法，双线性卷积神经网络是一个整体的系统，能够完成端到端的训练，且在训练过程中只依赖于类别标注信息，而无需借助其他的人工标注信息，这不仅大大增强了算法的实用性，而且提高了模型的识别率。

全部详细技术资料下载

【技术实现步骤摘要】
基于检测和识别网络架构的细粒度图像分类方法
本专利技术涉及一种图像分类技术，特别涉及一种基于检测和识别网络架构的细粒度图像分类方法。
技术介绍
图像分类是计算机视觉领域的一个经典研究课题。图像分类主要包括粗粒度图像分类和细粒度图像分类。细粒度图像分类，即子类的分类问题，是对一个大类别进行更加细致的子类划分，如区分鸟的种类、车的品牌款式、狗的品种等，因为图像采集中存在姿态、视角、光照、遮挡、背景干扰等差异因素，所以细粒度分类时往往具有细微的类间差异和较大的类内差异，和普通的图像分类相比，细粒度图像分类难度更大。早期基于人工特征的细粒度图像分类算法，由于人工特征选择过程繁琐，表述能力有限，因此分类效果不佳。随着近年来深度学习的兴起，从卷积神经网络中自动获得的特征，比人工特征有更强大的描述能力，按照模型训练时是否需要人工标注信息，基于深度学习的细粒度图像分类算法可分为强监督和弱监督两类，强监督的细粒度图像分类在模型训练时不仅需要图像的类别标签，还需要图像标注框，局部区域位置等人工标注信息，然而不论是强监督或弱监督的细粒度图像分类算法，大多数细粒度图像分类算法的思路都是先找到前景对象和图像中的局部区域，之后利用卷积神经网络对这些区域分别提取特征，并将这些特征进行一定处理，以此完成分类器的训练和预测。Zhang等提出的Part-basedR-CNN算法，该算法先采用R-CNN算法对图像进行检测，找到局部区域，再分别对每一块区域提取卷积特征，将不同区域的特征连接起来，构成一维特征表示，最后用SVM训练分类。然而，其利用的选择性搜索算法会产生大量无关的候选区域，造成运算...

【技术保护点】
1.一种基于检测和识别网络架构的细粒度图像分类方法，其特征在于，具体包括如下步骤：1)采用yolov2目标检测算法预训练的模型对标准细粒度图像数据集进行处理，得到数据集中每一张图片中的判别性区域，得到了处理后的目标图像数据集；2)将处理后的目标图像数据集输入双线性卷积神经网络进行训练与分类，得到细粒度图像分类结果；双线性卷积神经网络结构由一个四元组β＝(fA，fB，P，C)组成，其中，fA和fB是2个基于卷积神经网络的特征提取函数，分别对应CNN网络A和CNN网络B，P是一个池化函数，C则是分类函数；双线性卷积神经网络参数的训练通过分类损失函数r的梯度反向传播来实现；如果CNN网络A和CNN网络B两个网络的输出矩阵A和B，其大小分别为K×M和K×N，则双线性特征为x＝φ(H)＝ATB，大小为M×N；令dr/dx表示分类损失函数r对x的梯度，由梯度的链式法则，有：

【技术特征摘要】
1.一种基于检测和识别网络架构的细粒度图像分类方法，其特征在于，具体包括如下步骤：1)采用yolov2目标检测算法预训练的模型对标准细粒度图像数据集进行处理，得到数据集中每一张图片中的判别性区域，得到了处理后的目标图像数据集；2)将处理后的目标图像数据集输入双线性卷积神经网络进行训练与分类，得到细粒度图像分类结果；双线性卷积神经网络结构由一个四元组β＝(fA，fB，P，C)组成，其中，fA和fB是2个基于卷积神经网络的特征提取函数，分别对应CNN网络A和CNN网络B，P是一个池化函数，C则是分类函数；双线性卷积神经网络参数的训练通过分类损失函数r的梯度反向传播来实现；如果CNN网络A和CNN网络B两个网络的输出矩阵A和B，其大小分别为K×M和K×N，则双线性特征为x＝φ(H)＝ATB，大小为M×N；令dr/dx表示分类损失函数r对x的梯度，由梯度的链式法则，有：计算得到特征A和B的梯度，则整个网络进行端到端的训练。2.根据权利要求1所述基于检测和识别网络架构的细粒度图像分类方法，其特征在于，所述步骤1)中yolov2目标检测算法首先把输入图像划分成S×S的栅格，经过yolov2检测，对每个格子都预测Q个边界框，其中每个边界框都包含5个预测值：中心点横坐标tx、纵坐标ty，边界框的宽tw，高th，及置信值to，利用先验框来预测边界框，其采用k-means的方式对训练集图片中的真实标注框做聚类，可以找到合适的先验框；在实现k-means聚类时，通过IOU定义，使得误差和真实标注框box的大小无关，最终距离测度函数公式为：d(box，centrd)＝1-IoU(box，centrd)其中：centrd表示聚类中心；box表示真实标注框；IoU(box，centrd)表示聚类中心框和标注框的交并比；表示预测的边界框的准确度，公式表示为：其中：bgr表示真实标注框的面积，bpr表示预测边界框的面积；通过对预测的边界框进行限制，相应的预测为：bx＝σ(tx)+cxby＝σ(ty)+cyC＝σ(to)σ为logistic激活函数，tx、ty经过logistic激活函数后范围在0到1之间，cx和cy表示网格相对于图像左上角横纵坐标的偏移量，pw和ph表示先...

【专利技术属性】
技术研发人员：王永雄，张晓兵，余玉琴，马力，
申请(专利权)人：上海理工大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人