一种基于多模态学习的细粒度图像分类方法技术

技术编号:38814285 阅读:6 留言:0更新日期:2023-09-15 19:53
本发明专利技术公开了一种基于多模态学习的细粒度图像分类方法,先从已知数据集中下载不同物种的原始图片及对应的附加信息文件,通过对附加信息文件进行预处理后,用于训练提取多模态特征和融合特征的神经网络并收敛,然后通过收敛的神经网络对应细粒度图像进行标签概率预测,再对两个神经网络的预测概率进行决策修正,最后根据修正结果输出图像中物种的类别。最后根据修正结果输出图像中物种的类别。最后根据修正结果输出图像中物种的类别。

【技术实现步骤摘要】
一种基于多模态学习的细粒度图像分类方法


[0001]本专利技术属于图像识别
,更为具体地讲,涉及一种基于多模态学习的细粒度图像分类方法。

技术介绍

[0002]近年来,图像分类已成为计算机视觉领域的一个重要研究方向,并在自动驾驶、人脸识别等诸多现实场景中得到应用。图像分类的研究工作主要基于监督学习方法,即使用机器学习或深度学习方法对人工标记的数据集进行学习、分类和识别。传统的图像分类方法只专注于对猫、狗、场景等区分度高的对象进行分类。然而,大类的对象仍然可以细分为更多小类。例如,在鸟类图像分类中,可以将鸟类细分为不同种类的鸟类类别,使用传统方法很难识别这些细粒度的差异。细粒度图像分类是指对细粒度子类的识别。细粒度数据集的特点是类内差异大且类间差异小。例如,属于相似子类别的两个物种的图像看起来很相似,但属于相同类别的物种在不同的光照下或保持不同的姿势时可能看起来不同。细粒度图像分类的难点在于挖掘视觉相似度高的不同物种的细微视觉差异。因此,与传统的图像分类相比,细粒度图像分类要求分类模型更高效地学习图像中微小的特征。
[0003]除了最大限度地提高模型学习不同类别图像之间微小差异的能力外,引入与图像相关的多模态信息来辅助分类也是提高细粒度图像分类准确率的有效途径。一些公共数据集不仅包含大量图片,还包含摄影师在拍照时的一些信息。例如,图片拍摄地点的经纬度信息可以反映物种的栖息地分布,图片拍摄时间可以反应物种的活动时间等。科学地利用这些数据可以区分外观非常相似但栖息地和生活习性不同的物种,进而提高细粒度图像分类的准确率。iNaturalist2018、iNaturalist2021等网络公开权威数据集不仅包含大量图像,还包含与图像相关的多模态信息,本文基于这些数据集进行了一系列实验,验证了所提出方法的有效性。
[0004]目前,有一些方法将多模态信息应用于细粒度图像分类。Kevin Tang等人首先将多模态特征引入细粒度图像分类,通过MLP(多层感知机)网络提取年龄、日期等附加信息的特征,并将其与图像特征连接起来实现类别预测。Oisin Mac Aodha等人开发了一种地理先验策略来微调具有地理信息的图像特征的预测。Grace Chu等人使用地理位置先验模型、后处理模型和特征调制模型来利用多模态信息。J.Christopher等人使用乘法策略来整合预测结果。这些基于多模态信息的细粒度图像分类方法取得了优异的分类精度结果。然而,它们在多模态数据预处理方法、多模态特征提取方法、融合特征方法以及决策策略方面存在不足。本文在学习和参考这些方法的基础上,提出了改进方法。

技术实现思路

[0005]本专利技术的目的在于克服现有技术的不足,提供一种基于多模态学习的细粒度图像分类方法,使城域网与接入网得到有效融合,同时具有可扩展、高灵活以及低成本的性能。
[0006]为实现上述专利技术目的,本专利技术一种基于多模态学习的细粒度图像分类方法,其特
征在于,包括以下步骤;
[0007](1)、数据采集;
[0008]从已知数据集中下载不同物种的原始图片及对应的附加信息文件,附加信息文件中包含有原始图片拍摄时的纬度信息lat、经度信息lon、时间信息data,以及图片中对应的物种类别标签;
[0009](2)、附加信息文件预处理;
[0010](2.1)、将纬度信息lat与经度信息lon进行连接得到位置信息loc,再对位置信息loc进行非线性化处理;
[0011]loc=concat(lat,lon)
[0012][0013](2.2)、将时间信息data进行非线性化处理;
[0014][0015](3)、将非线性化处理后的位置信息和时间信息分别通过可训练的线性层后再进行拼接,得到时空信息X
m

[0016][0017]其中,f(
·
)表示可训练的线性层;
[0018](4)、在原始图像中加入多模态信息标签;
[0019](4.1)、生成多模态信息标签;
[0020]将时空信息X
m
直接作为多模态信息标签或使用单层或多层MLP对时空信息X
m
进行初步特征提取后再作为多模态信息标签;
[0021](4.2)、将多模态信息标签添加至原始图像;
[0022]将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行直接替换;或将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行像素点乘;
[0023](5)、通过搭建自注意力多层感知机SAMLP网络提取多模态特征Z
m

[0024]SAMLP网络由四个SAMLP模块串联组成,在每个SAMLP模块中依次包括串联的自注意力机制模块、多层感知机MLP和前馈网络;
[0025]将时空信息X
m
输入至SAMLP网络,通过自注意力机制模块提取相似度特征再通过MLP提取特征其中,Relu()表示激活函数,LN()表示层正则化;然后通过前馈网络提取特征其中,Dropou(t)表示随机失活,f1(),f2()均表示可训练的线性层;最终使SAMLP网络输出多模态特征Z
m

[0026](6)、提取视觉特征Z
i

[0027]利用混合数据增强mix

up方法对添加过多模态信息标签的原始图像进行增强处理,得到增强后的新图像,再使用Res2Net网络提取新图像的视觉特征Z
i

[0028](7)、特征融合;
[0029](7.1)、利用多模态特征Z
m
对视觉特征Z
i
进行注意力增强;
[0030]计算多模态特征Z
m
与视觉特征Z
i
的向量相似度,再以相似度为权重对视觉特征Z
i
进行注意力增强;
[0031](7.2)、多级联动态MLP的特征融合;
[0032]在单个动态MLP中,将多模态特征Z
m
与视觉特征Z
i
进行特征拼接,再分别通过不同的MLP进行动态滤波和大小调整,最后将调整后的两个特征相乘得到新的视觉特征Z
i
,并作为下一级动态MLP的视觉特征输入,并以此类推,最后通过最后一级动态MLP输出融合特征;
[0033][0034]其中,MLP1与MLP2表示输出大小不同两个的MLP网络,concat()表示特征拼接过程;
[0035](8)、训练网络至收敛;
[0036](8.1)、通过归一化指数函数softmax分别计算物种类别标签对应的多模态特征和融合特征的预测概率;
[0037](8.2)、计算损失函数值loss;
[0038]loss=loss1+loss2[0039][0040][0041]其中,loss1为Res2Net网络的损失值,loss2为SAMLP网络本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态学习的细粒度图像分类方法,其特征在于,包括以下步骤;(1)、数据采集;从已知数据集中下载不同物种的原始图片及对应的附加信息文件,附加信息文件中包含有原始图片拍摄时的纬度信息lat、经度信息lon、时间信息data,以及图片中对应的物种类别标签;(2)、附加信息文件预处理;(2.1)、将纬度信息lat与经度信息lon进行连接得到位置信息loc,再对位置信息loc进行非线性化处理;loc=concat(lat,lon)(2.2)、将时间信息data进行非线性化处理;(3)、将非线性化处理后的位置信息和时间信息分别通过可训练的线性层后再进行拼接,得到时空信息X
m
:其中,表示可训练的线性层;(4)、在原始图像中加入多模态信息标签;(4.1)、生成多模态信息标签;将时空信息X
m
直接作为多模态信息标签或使用单层或多层MLP对时空信息进行初步特征提取后再作为多模态信息标签;(4.2)、将多模态信息标签添加至原始图像;将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行直接替换;或将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行像素点乘;(5)、通过搭建自注意力多层感知机SAMLP网络提取多模态特征Z
m
;SAMLP网络由四个SAMLP模块串联组成,在每个SAMLP模块中依次包括串联的自注意力机制模块、多层感知机MLP和前馈网络;将时空信息X
m
输入至SAMLP网络,通过自注意力机制模块提取相似度特征再通过MLP提取特征其中,Relu()表示激活函数,LN()表示层正则化;然后通过前馈网络提取特征其中,Dropou(t)表示随机失活,f1(),f2()均表示可训练的线性层;最终使SAMLP网络输出多模态特征Z
m
;(6)、提取视觉特征Z
i
;利用混合数据增强mix

up方法对添加过多模态信息标签的原始图像进行增强处理,得到增强后的新图像,再使用Res2Net网络提取新图像的视觉特征Z
i
;(7)、特征融合;(7.1)、利用多模态特征Z
m
对视觉特征Z
i
进行注意力增强;
计算多模态特征Z
m
与视觉特征Z
i
的向量相似度,再以相似度为权重对视觉特征Z
i
进行注意力增强;(7.2)、多级联动态MLP的特征融合;在单个动态MLP中,将多模态特征Z
m
与视觉特...

【专利技术属性】
技术研发人员:徐杰张笑谦郑豪冯渝荏刘恒耿子力
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1