一种基于拼图排列学习的渐进式训练细粒度视觉分类方法技术

技术编号:33139694 阅读:31 留言:0更新日期:2022-04-22 13:49
本发明专利技术提供了一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,通过拼图生成器将图像数据集裁剪成不同粒度大小的图像,使用残差网络(ResNet50)作为特征提取器,将拼图解算器作用在特征图提取的每一个阶段,在残差网络(ResNet50)的每个阶段学习不同粒度大小的局部信息并且融合多尺度的特征,同时在每个阶段使用拼图解算模块学习打乱图像的拼图排列矩阵来学习对象的全局信息,通过在每个阶段学习不同粒度大小局部信息的同时学习对象的全局信息来进行细粒度视觉分类,在模型的每个阶段同时利用不同粒度对象的局部细节信息以及整体对象的全局信息之间的互补关系,使得模型最终的分类性能达到目前最先进的水平。最终的分类性能达到目前最先进的水平。最终的分类性能达到目前最先进的水平。

【技术实现步骤摘要】
一种基于拼图排列学习的渐进式训练细粒度视觉分类方法


[0001]本专利技术属于深度学习细粒度视觉分类
,具体涉及一种基于拼图排列学习的渐进式训练细粒度视觉分类方法。

技术介绍

[0002]传统的细粒度视觉分类方法往往采用的是强监督的方式,即不仅仅需要图像级的标签,而且还需要边界框或者部件的信息。虽然基于强监督的方式已经取得了比较显著的性能,但是由于这种方法需要耗费大量的人力以及物力,所以实用性不高。目前的研究基本上都集中在基于弱监督的方法上,即只使用图像级的标签。
[0003]目前细粒度视觉分类的方法有很多,比如通过分类子网络进行识别以及通过拼图聚类的方式来进行细粒度对象识别,在系统的每一个阶段,系统往往只聚焦在对象的局部细节信息,没有考虑全局的信息。但是基于注意力机制的方法以及通过端到端的特征编码的方法,系统往往直接从全局对象来学习辨别性的特征,忽视了局部细节信息。

技术实现思路

[0004]本专利技术要解决的技术问题是:提供一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,用于在学习对象不同粒度大小的局部细节信息的同时学习对象的全局信息来进行细粒度视觉分类。
[0005]本专利技术为解决上述技术问题所采取的技术方案为:一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,包括以下步骤:
[0006]S1:采用拼图生成器处理图像数据集中的原始图像,生成不同粒度版本的打乱图像;
[0007]S2:通过深度卷积神经网络建立细粒度视觉分类网络,采用渐进式策略训练细粒度视觉分类网络;输入打乱图像,通过残差网络ResNet50的最后三层输出三个中间阶段不同粒度大小的特征谱;输入原始图像让细粒度视觉分类网络学习完整的对象信息,串联残差网络ResNet50的最后三层输出的特征谱,得到串联阶段输出的多尺度多粒度的特征谱;
[0008]S3:通过拼图解算器分别处理三个中间阶段的特征谱,学习打乱图像的排列位置,将打乱图像恢复为原始图像,并通过得到的双随机矩阵做排列损失监督网络,使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息;
[0009]S4:定义分类损失函数和排列损失函数,并根据分类损失函数和排列损失函数构建损失层;
[0010]S5:利用训练样本集优化细粒度视觉分类网络;利用测试样本集对细粒度视觉分类网络进行测试。
[0011]按上述方案,所述的步骤S1中,具体步骤为:
[0012]S11:将原始图像I裁剪成n个图像块,根据图像块的索引得到大小为n
×
n的索引矩阵P
I

[0013]S12:随机打乱图像块,通过拼图生成器生成并拼接成一个打乱图像,根据图像块的索引矩阵P
I
得到打乱图像的索引矩阵P
S

[0014]S13:根据打乱图像的索引矩阵P
S
得到独热形式的大小为n2×
n2的矩阵P。
[0015]进一步的,所述的步骤S2中,具体步骤为:
[0016]S21:建立深度卷积神经网络,包括卷积层、池化层和分类层;
[0017]S22:卷积层通过残差网络ResNet50提取打乱图像的图像特征,使用残差网络ResNet50的最后三层(F3,F4,F5)分别处理n
×
n大小的图像;对不同粒度版本的图像输出不同中间阶段的特征谱,设n=25‑
l+1
,l={3,4,5},分别对应输出三个阶段的特征谱F3,F4,F5;卷积层将输出特征谱的通道维度统一到1024维;
[0018]S23:池化层对每个阶段的特征谱进行全局平均池化后得到一个1024维的特征向量;
[0019]S24:设m表示数据集的类别数,分类层通过分类器处理1024维的特征向量后得到一个m维的特征向量;分类器包括两个全连接层;
[0020]S25:使用原始图像作为输入图像,将残差网络ResNet50的最后三层输出的特征谱串联起来得到一个3072维的特征谱;对特征谱进行全局平均池化后经过分类层得到一个m维的特征向量,融合多尺度的特征信息得到对象的局部细节信息;
[0021]S26:将步骤S25得到的三个阶段、以及步骤S25得到的串联阶段,共四个阶段预测概率的和作为最终的预测概率。
[0022]进一步的,所述的步骤S3中,具体步骤为:
[0023]S31:设特征提取器为F(
·
),解算器为S(
·
),则拼图解算器为J(I)=S(F(I));
[0024]S32:将残差网络ResNet50的三个输出特征谱F3,F4,F5输入拼图解算器进行平均池化、简化为特征向量,通过全连接层得到偏好矩阵偏好矩阵反应了网络将输入图像的排列位置分配给相应位置的偏好程度;
[0025]S33:将辛克霍恩算子应用于偏好矩阵获得n2×
n2大小的双随机矩阵 M
*
=Sinkhorn(M);
[0026]S34:通过双随机矩阵M
*
做排列损失监督网络,使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息。
[0027]进一步的,所述的步骤S4中,具体步骤为:
[0028]S41:设第l阶段的预测概率为串联特征谱的预测概率为则分类损失函数为:
[0029][0030]通过交叉熵损失分别计算每一个阶段和串联阶段的概率得分,最终的总分类损失为每个阶段的损失相加之和;
[0031]S42:设双随机矩阵中第i行第j列的元素为生成矩阵中第i行第j列的元素为P
ij
,每一行或每一列元素的数量为n2,则排列损失函数为:
[0032][0033]通过二值交叉熵损失计算双随机矩阵M*与矩阵P的匹配程度,使细粒度视觉分类网络学习对象的整体全局信息,通过在每一个阶段同时学习对象的局部细节信息和全局信息提高细粒度视觉分类网络的分类性能。
[0034]进一步的,所述的步骤S5中,具体步骤为:
[0035]S51:采用训练样本集,通过自动微分技术、使用基于随机梯度下降和反向传播算法,根据分类损失L
cls
和排列损失L
per
优化细粒度视觉分类网络;
[0036]S52:采用测试样本集在训练集权重的基础上对细粒度视觉分类网络进行测试。
[0037]一种基于拼图排列学习的渐进式训练细粒度视觉分类系统,包括拼图生成模块、细粒度视觉分类模型构建模块、拼图解算器模块、损失函数模块和训练测试模块;
[0038]拼图生成模块用于处理图像数据集,生成不同粒度大小版本的打乱图像;
[0039]细粒度视觉分类模型构建模块用于对残差网络ResNet50的最后三层进行渐进式训练,使用不同粒度大小的图像作为输入图像,并且选取不同的中间阶段特征谱输出,得到对象的局部细节信息;使用原始图像作为输入图像,融合残差网络ResNet50的最后三层输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:包括以下步骤:S1:采用拼图生成器处理图像数据集中的原始图像,生成不同粒度版本的打乱图像;S2:通过深度卷积神经网络建立细粒度视觉分类网络,采用渐进式策略训练细粒度视觉分类网络;输入打乱图像,通过残差网络ResNet50的最后三层输出三个中间阶段不同粒度大小的特征谱;输入原始图像让细粒度视觉分类网络学习完整的对象信息,串联残差网络ResNet50的最后三层输出的特征谱,得到串联阶段输出的多尺度多粒度的特征谱;S3:通过拼图解算器分别处理三个中间阶段的特征谱,学习打乱图像的排列位置,将打乱图像恢复为原始图像,并通过得到的双随机矩阵做排列损失监督网络,使细粒度视觉分类网络在学习局部信息的同时学习对象的全局信息;S4:定义分类损失函数和排列损失函数,并根据分类损失函数和排列损失函数构建损失层;S5:利用训练样本集优化细粒度视觉分类网络;利用测试样本集对细粒度视觉分类网络进行测试。2.根据权利要求1所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S1中,具体步骤为:S11:将原始图像I裁剪成n个图像块,根据图像块的索引得到大小为n
×
n的索引矩阵P
I
;S12:随机打乱图像块,通过拼图生成器生成并拼接成一个打乱图像,根据图像块的索引矩阵P
I
得到打乱图像的索引矩阵P
S
;S13:根据打乱图像的索引矩阵P
S
得到独热形式的大小为n2×
n2的矩阵P。3.根据权利要求2所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S2中,具体步骤为:S21:建立深度卷积神经网络,包括卷积层、池化层和分类层;S22:卷积层通过残差网络ResNet50提取打乱图像的图像特征,使用残差网络ResNet50的最后三层(F3,F4,F5)分别处理n
×
n大小的图像;对不同粒度版本的图像输出不同中间阶段的特征谱,设n=25‑
l+1
,l={3,4,5},分别对应输出三个阶段的特征谱F3,F4,F5;卷积层将输出特征谱的通道维度统一到1024维;S23:池化层对每个阶段的特征谱进行全局平均池化后得到一个1024维的特征向量;S24:设m表示数据集的类别数,分类层通过分类器处理1024维的特征向量后得到一个m维的特征向量;分类器包括两个全连接层;S25:使用原始图像作为输入图像,将残差网络ResNet50的最后三层输出的特征谱串联起来得到一个3072维的特征谱;对特征谱进行全局平均池化后经过分类层得到一个m维的特征向量,融合多尺度的特征信息得到对象的局部细节信息;S26:将步骤S25得到的三个阶段、以及步骤S25得到的串联阶段,共四个阶段预测概率的和作为最终的预测概率。4.根据权利要求3所述的一种基于拼图排列学习的渐进式训练细粒度视觉分类方法,其特征在于:所述的步骤S3中,具体步骤为:S31:设特征提取器为F(
·
),解算器为S...

【专利技术属性】
技术研发人员:马雷赵凡洪汉玉陈冰川罗心怡刘红
申请(专利权)人:武汉工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1