一种基于拼图排列学习的渐进式训练细粒度视觉分类方法技术

技术编号：33139694 阅读：31 留言：0更新日期：2022-04-22 13:49

本发明专利技术提供了一种基于拼图排列学习的渐进式训练细粒度视觉分类方法，通过拼图生成器将图像数据集裁剪成不同粒度大小的图像，使用残差网络(ResNet50)作为特征提取器，将拼图解算器作用在特征图提取的每一个阶段，在残差网络(ResNet50)的每个阶段学习不同粒度大小的局部信息并且融合多尺度的特征，同时在每个阶段使用拼图解算模块学习打乱图像的拼图排列矩阵来学习对象的全局信息，通过在每个阶段学习不同粒度大小局部信息的同时学习对象的全局信息来进行细粒度视觉分类，在模型的每个阶段同时利用不同粒度对象的局部细节信息以及整体对象的全局信息之间的互补关系，使得模型最终的分类性能达到目前最先进的水平。最终的分类性能达到目前最先进的水平。最终的分类性能达到目前最先进的水平。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于拼图排列学习的渐进式训练细粒度视觉分类方法

[0001]本专利技术属于深度学习细粒度视觉分类
，具体涉及一种基于拼图排列学习的渐进式训练细粒度视觉分类方法。

技术介绍

[0002]传统的细粒度视觉分类方法往往采用的是强监督的方式，即不仅仅需要图像级的标签，而且还需要边界框或者部件的信息。虽然基于强监督的方式已经取得了比较显著的性能，但是由于这种方法需要耗费大量的人力以及物力，所以实用性不高。目前的研究基本上都集中在基于弱监督的方法上，即只使用图像级的标签。
[0003]目前细粒度视觉分类的方法有很多，比如通过分类子网络进行识别以及通过拼图聚类的方式来进行细粒度对象识别，在系统的每一个阶段，系统往往只聚焦在对象的局部细节信息，没有考虑全局的信息。但是基于注意力机制的方法以及通过端到端的特征编码的方法，系统往往直接从全局对象来学习辨别性的特征，忽视了局部细节信息。

技术实现思路

[0004]本专利技术要解决的技术问题是：提供一种基于拼图排列学习的渐进式训练细粒度视觉分类方法，用于在学习对象不同粒度大小的局部细节信息的同时学习对象的全局信息来进行细粒度视觉分类。
[0005]本专利技术为解决上述技术问题所采取的技术方案为：一种基于拼图排列学习的渐进式训练细粒度视觉分类方法，包括以下步骤：
[0006]S1：采用拼图生成器处理图像数据集中的原始图像，生成不同粒度版本的打乱图像；
[0007]S2：通过深度卷积神经网络建立细粒度视觉分类网络，采用渐进式策略训练细粒度...

【技术保护点】

【技术特征摘要】
1.一种基于拼图排列学习的渐进式训练细粒度视觉分类方法，其特征在于：包括以下步骤：S1：采用拼图生成器处理图像数据集中的原始图像，生成不同粒度版本的打乱图像；S2：通过深度卷积神经网络建立细粒度视觉分类网络，采用渐进式策略训练细粒度视觉分类网络；输入打乱图像，通过残差网络ResNet50的最后三层输出三个中间阶段不同粒度大小的特征谱；输入原始图像让细粒度视觉分类网络学习完整的对象信息，串联残差网络ResNet50的最后三层输出的特征谱，得到串联阶段输出的多尺度多粒度的特征谱；S3：通过拼图解算器分别处理三个中间阶段的特征谱，学习打乱图像的排列位置，将打乱图像恢复为原始图像，并通过得到的双随机矩阵做排列损失监督网络，使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息；S4：定义分类损失函数和排列损失函数，并根据分类损失函数和排列损失函数构建损失层；S5：利用训练样本集优化细粒度视觉分类网络；利用测试样本集对细粒度视觉分类网络进行测试。2.根据权利要求1所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法，其特征在于：所述的步骤S1中，具体步骤为：S11：将原始图像I裁剪成n个图像块，根据图像块的索引得到大小为n
×
n的索引矩阵P
I
；S12：随机打乱图像块，通过拼图生成器生成并拼接成一个打乱图像，根据图像块的索引矩阵P
I
得到打乱图像的索引矩阵P
S
；S13：根据打乱图像的索引矩阵P
S
得到独热形式的大小为n2×
n2的矩阵P。3.根据权利要求2所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法，其特征在于：所述的步骤S2中，具体步骤为：S21：建立深度卷积神经网络，包括卷积层、池化层和分类层；S22：卷积层通过残差网络ResNet50提取打乱图像的图像特征，使用残差网络ResNet50的最后三层(F3,F4,F5)分别处理n
×
n大小的图像；对不同粒度版本的图像输出不同中间阶段的特征谱，设n＝25‑
l+1
，l＝{3,4,5}，分别对应输出三个阶段的特征谱F3,F4,F5；卷积层将输出特征谱的通道维度统一到1024维；S23：池化层对每个阶段的特征谱进行全局平均池化后得到一个1024维的特征向量；S24：设m表示数据集的类别数，分类层通过分类器处理1024维的特征向量后得到一个m维的特征向量；分类器包括两个全连接层；S25：使用原始图像作为输入图像，将残差网络ResNet50的最后三层输出的特征谱串联起来得到一个3072维的特征谱；对特征谱进行全局平均池化后经过分类层得到一个m维的特征向量，融合多尺度的特征信息得到对象的局部细节信息；S26：将步骤S25得到的三个阶段、以及步骤S25得到的串联阶段，共四个阶段预测概率的和作为最终的预测概率。4.根据权利要求3所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法，其特征在于：所述的步骤S3中，具体步骤为：S31：设特征提取器为F(
·
)，解算器为S...

【专利技术属性】
技术研发人员：马雷，赵凡，洪汉玉，陈冰川，罗心怡，刘红，
申请(专利权)人：武汉工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人