一种基于部件混合的细粒度图像分类方法技术

技术编号:38160868 阅读:15 留言:0更新日期:2023-07-13 09:33
本发明专利技术公开了一种基于部件混合的细粒度图像分类方法,属于图像处理技术领域。该方法包括:获取图像数据集,并对其进行预处理;搭建基于部件混合的细粒度图像分类网络,包括目标级全局预测模块,部件预测模块和部件混合模块;将所述预处理后的图像数据集数据送入所述网络进行训练;将待分类的目标图像输入到所述训练好的目标级全局预测模块中,得到分类结果。本发明专利技术提出了一种新颖的部件混合策略,使用弱监督的部件检测技术和谱聚类算法来找到不同对象的具有相似语义性的部件,混合具有相似语义性的部件以生成混合图像,通过学习混合图像和混合标签,使得网络可以学习到跨类别、跨实例的语义部件相关性信息,从而降低模型的过拟合,提高表征能力。提高表征能力。

【技术实现步骤摘要】
一种基于部件混合的细粒度图像分类方法


[0001]本专利技术涉及图像处理
,特别涉及一种基于部件混合的细粒度图像分类方法。

技术介绍

[0002]图像分类是计算机视觉领域最重要的任务之一。近年来,细粒度图像分类因其具有广泛的应用场景而获得了更多的关注。例如:在智慧零售场景中的商品分类,同一品牌的同一种产品有不同的口味,这些产品在视觉外观上的差别比较小,道路场景下的车辆识别,以及针对生物的多样性检测等。
[0003]早期的图像分类任务专注于区分粗粒度类别,例如识别车辆、飞行器、鸟类和昆虫等。粗粒度类别之间的视觉差异性较大,识别难度较低。相比较而言,细粒度图像分类的任务是识别不同种类的鸟、车辆型号和飞行器型号。由于子类之间的视觉差异小,造成细粒度图像分类的类间方差小。而属于同一子类的目标在不同的光照、姿态和遮挡因素的影响下会呈现较大的差异性,因此造成了细粒度图像分类的类内方差大。由于细粒度图像分类数据集获取困难,导致在实际应用中采集到的数据集较少;由于不同子类的稀缺程度不同,导致采集到的数据集出现长尾分布,也加剧了模型的过拟合风险。

技术实现思路

[0004]为了解决现有技术存在的问题,本专利技术提出了一种基于部件混合的细粒度图像分类网络,首先定位对象的部件区域,然后在整个批次的部件区域上使用聚类算法,在不同图像之间执行部件区域混合,通过图像混合策略,可以有效地扩充细粒度图像分类的训练数据,从而达到降低深度模型过拟合风险的效果。
[0005]为了达到上述目的,本专利技术提出了基于部件混合的细粒度图像识别方法,包括:
[0006](1)获取图像数据集,并对所述图像数据集进行预处理;
[0007](2)搭建基于部件混合的细粒度图像分类网络,所述基于部件混合的细粒度图像分类网络包括目标级全局预测模块,部件预测模块和部件混合模块;
[0008](3)将所述预处理后的图像数据集数据送入所述基于部件混合的细粒度图像识别网络中进行训练,得到训练好的基于部件混合的细粒度图像识别网络;
[0009](4)将待分类的目标图像输入到所述训练好的基于部件混合的细粒度图像识别网络中的目标级全局预测模块,得到所述目标图像的分类结果。
[0010]进一步的,所述预处理包括:
[0011]将所述初始图像数据集图像缩放、裁剪、随机水平翻转进行数据增强;
[0012]将所述数据增强后的初始图像数据集划分为训练集和测试集。
[0013]进一步的,所述目标级全局预测模块由ResNet50卷积神经网络、全局平均池化层、Softmax激活层和全连接层组成;
[0014]所述ResNet50卷积神经网络作为特征提取器完成对输入图像的特征提取,输出特
征图;
[0015]所述特征图输入所述全局平均池化层、Softmax激活层和全连接层完成分类,使用交叉熵损失函数进行监督。
[0016]进一步的,所述部件预测模块由部件检测模块、ResNet50卷积神经网络、全局平均池化层、Softmax激活层以及全连接层组成;
[0017]所述部件检测模块使用特征金字塔网络,其输入为所述目标级全局预测模块中的最后一层卷积层输出的特征图,输出为通过所述特征金字塔网络来预测出的固定数量的边界框及锚框区域的信息度得分;
[0018]根据所述部件检测模块输出的边界框,对输入图像进行裁剪缩放,得到部件图,将所述部件图输入到所述ResNet50卷积神经网络提取部件级的卷积特征;
[0019]通过对所述卷积特征使用全局平均池化得到每个所述部件图的特征向量,将所述特征向量输入所述Softmax激活层和全连接层并分类,使用交叉熵损失函数进行监督。
[0020]进一步的,所述特征金字塔网络由三层卷积层组成;
[0021]第一层卷积层不改变输入特征图的分辨率,第一层的输出为第二层的输入;
[0022]第二层卷积层对输入特征图进行2倍下采样,将该特征图输入第三层卷积层;
[0023]第三层卷积层对输入特征图再次进行2倍下采样;这三层卷积层输出的所述特征图的每个激活值分别代表了不同尺度和不同宽高比的所述锚框区域的信息度得分;
[0024]使用非极大值抑制NMS方法得到所述边界框。
[0025]进一步的,所述部件混合模块具体包括:
[0026]对所述部件预测模块提取出的部件图的特征向量计算余弦相似度矩阵并进行谱聚类,得到所述部件图的特征向量的聚类结果;
[0027]根据聚类结果对图像进行混合,得到混合图像,使用混合标签对所述混合图像进行监督;
[0028]将所述混合图像输入ResNet50卷积神经网络特征提取器进行特征提取,再输入全局平均池化层、全连接层和Softmax激活层完成分类得到概率向量,使用交叉熵损失函数进行监督。
[0029]进一步的,所述对图像进行混合具体包括:
[0030](2.1)根据所述部件图的特征向量得到聚类矩阵N:
[0031][0032][0033]N=cluster(cos(U,U
T
))
[0034]其中:U为一批图像中的所有所述部件图的特征向量所组成的矩阵,U
T
为U的转置矩阵,B为批数量,K为每张图的部件数量,cos(U,U
T
)为余弦相似度矩阵,cluster()为谱聚类算法;
[0035](2.2)根据N中的聚类信息以及对应的所述边界框信息,生成对应的混合掩模M,混
合掩模M是一个二值掩模;
[0036](2.3)根据掩模M在一批图像中进行两两混合,生成所述混合图像,其集合记为
[0037]进一步的,所述使用混合标签对所述混合图像进行监督具体包括:
[0038](1)计算混合系数:
[0039][0040][0041]其中:λ
a
为输入图像的混合系数,λ
b
为输入图像的混合系数;C
a,i
是的面积,S
i
是的所述信息度得分;K为每张图的部件数量;
[0042](2)使用得到的所述混合系数得到所述混合标签;
[0043]Y
(a,b)
=(1

λ
a
)
·
Y
a

b
·
Y
b
[0044]其中:Y
a
为的独热标签,Y
b
为的独热标签;
[0045](3)使用所述混合标签对所述混合图像计算交叉熵损失,根据损失值对网络进行反向传播;
[0046][0047]其中:为所述混合图像的概率向量。
[0048]本专利技术的有益效果:
[0049]1、本专利技术提出了一种新颖的部件混合策略,使用弱监督的部件检测技术和谱聚类算法来找到不同对象的具有相似语义性的部件,混合具有相似语义性的部件以生成混合图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于部件混合的细粒度图像分类方法,其特征在于,包括如下步骤:(1)获取图像数据集,并对所述图像数据集进行预处理;(2)搭建基于部件混合的细粒度图像分类网络,所述基于部件混合的细粒度图像分类网络包括目标级全局预测模块,部件预测模块和部件混合模块;(3)将所述预处理后的图像数据集数据送入所述基于部件混合的细粒度图像识别网络中进行训练,得到训练好的基于部件混合的细粒度图像识别网络;(4)将待分类的目标图像输入到所述训练好的基于部件混合的细粒度图像识别网络中的目标级全局预测模块,得到所述目标图像的分类结果。2.根据权利要求1所述的基于部件混合的细粒度图像分类方法,其特征在于,所述预处理包括:将所述初始图像数据集图像缩放、裁剪、随机水平翻转进行数据增强;将所述数据增强后的初始图像数据集划分为训练集和测试集。3.根据权利要求1所述的基于部件混合的细粒度图像分类方法,其特征在于:所述目标级全局预测模块由ResNet50卷积神经网络、全局平均池化层、Softmax激活层和全连接层组成;所述ResNet50卷积神经网络作为特征提取器完成对输入图像的特征提取,输出特征图;所述特征图输入所述全局平均池化层、Softmax激活层和全连接层完成分类,使用交叉熵损失函数进行监督。4.根据权利要求3所述的基于部件混合的细粒度图像分类方法,其特征在于:所述部件预测模块由部件检测模块、ResNet50卷积神经网络、全局平均池化层、Softmax激活层以及全连接层组成;所述部件检测模块使用特征金字塔网络,其输入为所述目标级全局预测模块中的最后一层卷积层输出的特征图,输出为通过所述特征金字塔网络来预测出的固定数量的边界框及锚框区域的信息度得分;根据所述部件检测模块输出的边界框,对输入图像进行裁剪缩放,得到部件图,将所述部件图输入到所述ResNet50卷积神经网络提取部件级的卷积特征;通过对所述卷积特征使用全局平均池化得到每个所述部件图的特征向量,将所述特征向量输入所述Softmax激活层和全连接层并分类,使用交叉熵损失函数进行监督。5.根据权利要求4所述的基于部件混合的细粒度图像分类方法,其特征在于:所述特征金字塔网络由三层卷积层组成;第一层卷积层不改变输入特征图的分辨率,第一层的输出为第二层的输入;第二层卷积层对输入特征图进行2倍下采样,将该特征图输入第三层卷积层;第三层卷积层对输入特征图再次进行2倍下采样;这三层卷积层输出的所述特征图的每个激活值分别代表了不同尺度和不同宽高比的所述锚...

【专利技术属性】
技术研发人员:张相芬姜臻袁非牛
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1