【技术实现步骤摘要】
一种基于多模态学习的细粒度图像分类方法
[0001]本专利技术属于图像识别
,更为具体地讲,涉及一种基于多模态学习的细粒度图像分类方法。
技术介绍
[0002]近年来,图像分类已成为计算机视觉领域的一个重要研究方向,并在自动驾驶、人脸识别等诸多现实场景中得到应用。图像分类的研究工作主要基于监督学习方法,即使用机器学习或深度学习方法对人工标记的数据集进行学习、分类和识别。传统的图像分类方法只专注于对猫、狗、场景等区分度高的对象进行分类。然而,大类的对象仍然可以细分为更多小类。例如,在鸟类图像分类中,可以将鸟类细分为不同种类的鸟类类别,使用传统方法很难识别这些细粒度的差异。细粒度图像分类是指对细粒度子类的识别。细粒度数据集的特点是类内差异大且类间差异小。例如,属于相似子类别的两个物种的图像看起来很相似,但属于相同类别的物种在不同的光照下或保持不同的姿势时可能看起来不同。细粒度图像分类的难点在于挖掘视觉相似度高的不同物种的细微视觉差异。因此,与传统的图像分类相比,细粒度图像分类要求分类模型更高效地学习图像中微小的特征。
[0003]除了最大限度地提高模型学习不同类别图像之间微小差异的能力外,引入与图像相关的多模态信息来辅助分类也是提高细粒度图像分类准确率的有效途径。一些公共数据集不仅包含大量图片,还包含摄影师在拍照时的一些信息。例如,图片拍摄地点的经纬度信息可以反映物种的栖息地分布,图片拍摄时间可以反应物种的活动时间等。科学地利用这些数据可以区分外观非常相似但栖息地和生活习性不同的物种,进而提高细粒度图像分类 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态学习的细粒度图像分类方法,其特征在于,包括以下步骤;(1)、数据采集;从已知数据集中下载不同物种的原始图片及对应的附加信息文件,附加信息文件中包含有原始图片拍摄时的纬度信息lat、经度信息lon、时间信息data,以及图片中对应的物种类别标签;(2)、附加信息文件预处理;(2.1)、将纬度信息lat与经度信息lon进行连接得到位置信息loc,再对位置信息loc进行非线性化处理;loc=concat(lat,lon)(2.2)、将时间信息data进行非线性化处理;(3)、将非线性化处理后的位置信息和时间信息分别通过可训练的线性层后再进行拼接,得到时空信息X
m
:其中,表示可训练的线性层;(4)、在原始图像中加入多模态信息标签;(4.1)、生成多模态信息标签;将时空信息X
m
直接作为多模态信息标签或使用单层或多层MLP对时空信息进行初步特征提取后再作为多模态信息标签;(4.2)、将多模态信息标签添加至原始图像;将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行直接替换;或将多模态信息标签与原始图像边缘处对应尺寸下的色素点进行像素点乘;(5)、通过搭建自注意力多层感知机SAMLP网络提取多模态特征Z
m
;SAMLP网络由四个SAMLP模块串联组成,在每个SAMLP模块中依次包括串联的自注意力机制模块、多层感知机MLP和前馈网络;将时空信息X
m
输入至SAMLP网络,通过自注意力机制模块提取相似度特征再通过MLP提取特征其中,Relu()表示激活函数,LN()表示层正则化;然后通过前馈网络提取特征其中,Dropou(t)表示随机失活,f1(),f2()均表示可训练的线性层;最终使SAMLP网络输出多模态特征Z
m
;(6)、提取视觉特征Z
i
;利用混合数据增强mix
‑
up方法对添加过多模态信息标签的原始图像进行增强处理,得到增强后的新图像,再使用Res2Net网络提取新图像的视觉特征Z
i
;(7)、特征融合;(7.1)、利用多模态特征Z
m
对视觉特征Z
i
进行注意力增强;
计算多模态特征Z
m
与视觉特征Z
i
的向量相似度,再以相似度为权重对视觉特征Z
i
进行注意力增强;(7.2)、多级联动态MLP的特征融合;在单个动态MLP中,将多模态特征Z
m
与视觉特...
【专利技术属性】
技术研发人员:徐杰,张笑谦,郑豪,冯渝荏,刘恒,耿子力,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。