一种基于注意力机制的细粒度图像分类方法及系统技术方案

技术编号:38821338 阅读:15 留言:0更新日期:2023-09-15 20:00
本发明专利技术公开了一种基于注意力机制的细粒度图像分类方法及系统,涉及图像识别的技术领域。其技术要点:包括物体注意力模型和分类模型,物体注意力模型包括一个卷积神经网络和掩码映射模块,分类模型包含两个引入通道注意力机制的双线性卷积神经网络。本发明专利技术具有的优点:相较于常规的卷积神经网络,本项发明专利技术中分类模型利用双线性卷积神经网络对特征图使用外积聚合获取通道之间的线性关系生成的双线性特征对物体细节的表达力更强。同时,通道注意力机制的引入令后续的分类更多的关注于高阶特征中与物体的关键信息相关度更高的通道。另外,通过物体注意力模型提取物体所在区域,令分类模型能够结合图像的全局和局部特征,有效地提高细粒度分类的精度。效地提高细粒度分类的精度。效地提高细粒度分类的精度。

【技术实现步骤摘要】
一种基于注意力机制的细粒度图像分类方法及系统


[0001]本专利技术涉及图像识别的
,具体为一种基于注意力机制的细粒度图像分类方法及系统。

技术介绍

[0002]细粒度图像分类是计算机视觉领域中一个热门研究方向,其任务是在区分出物体基本类别的基础上,对物体进行更精细的子类划分,如区分鸟的种类,车的款式以及花的品种等。相较于粗粒度图像,细粒度图像的类别精度更加细致,类间差异更加细微,差异通常由一些细小的局部特征反映。加上图像收集过程中遭遇视角、光照、遮挡和背景干扰等影响,导致分类的难度进一步加大。
[0003]细粒度图像分类通常分为基于人工特征的分类方法以及基于深度学习的分类方法。前者是早期细粒度图像分类的主流方法,但受限于人工特征对于物体局部细节信息的表达能力以及缺乏不同区域人工特征之间的关联性,导致分类效果不佳,随着深度学习技术的兴起,逐渐被后者取代。当下基于深度学习的细粒度图像分类方法通常依赖于目标检测和两种网络模型。该方法首先通过目标检测网络定位包含物体关键信息的区域,随后将这些区域输入到后续的由常规卷积神经网络组成的分类网络进行分类。虽然关键区域检测的引入,一定程度上有效地改善了常规的卷积神经网络对于物体局部细节表达不足的缺陷,提高了分类精度,但检测关键区域的过程相对耗时,另外需要投注较多的时间和人力标注物体关键区域的位置信息用于目标检测网络的训练。

技术实现思路

[0004]针对现有技术存在的不足,本专利技术的目的在于提供一种基于注意力机制的细粒度图像分类方法及系统,其具有的优点:将通道注意力机制引入双线性卷积神经网络来获取有用信息与特征图各通道的关联性,通过全局信息有选择性的加强包含有用信息的特征并抑制无用特征。同时,在分类模型中结合完整图像与物体两种不同层次的特征,进一步加强特征对于图像类间差异的表现力,从而提高分类精度。
[0005]本专利技术的上述目的是通过以下技术方案得以实现的:
[0006]一种基于注意力机制的细粒度图像分类系统,包括物体注意力模型和分类模型,所述物体注意力模型包括一个卷积神经网络和掩码映射模块,所述分类模型包含两个引入通道注意力机制的双线性卷积神经网络。
[0007]本专利技术在一较佳示例中可以进一步配置为:作用于上述物体注意力模型和分类模型,包括如下步骤:
[0008]步骤S1:对原始图像进行缩放和像素归一化处理得到缩放后的原始图像;
[0009]步骤S2:利用卷积神经网络提取S1中缩放后原始图像的高阶特征图;
[0010]步骤S3:根据S2中得到的高阶特征图并利用掩码映射从S1中的原始图像中获取当前物体的物体图像;
[0011]步骤S4:将S3中的物体图像缩放至与S1中缩放后的原始图像相同的尺寸得到缩放后的物体图像;
[0012]步骤S5:利用内置的SPP模块和通道注意力模块的双线性卷积神经网络提取S4中缩放后的原始图像的双线性特征图作为原始图像双线性特征图,并利用内置有通道注意力模块的双线性卷积神经网络提取缩放后物体图像的双线性特征图作为物体图像双线性特征图;
[0013]步骤S6:分别对S5中的原始图像双线性特征图和S5中的物体图像双线性特征图进行双线性池化融合并计算得到原始图像的类别概率作为原始图像类别概率以及物体图像的类别概率作为物体图像类别概率;
[0014]步骤S7:将S6中的原始图像类别概率和S6中的物体图像类别概率加权求和作为最终的综合类别概率。
[0015]本专利技术在一较佳示例中可以进一步配置为:上述S3包括以下子步骤:
[0016]步骤S3.1:沿通道累加所有的高阶特征图后取平均值并将得到的平均值作为阈值,把累加得到的特征图上的每一个点映射成0或1,得到特征图相应尺寸的掩码图;
[0017]步骤S3.2:在S3.1中的掩码图中找到由1像素构成的最大连通域,并计算该最大连通域的外接矩形;
[0018]步骤S3.3:将S3.1掩码图的尺寸调整至与缩放后原始图像相同的尺寸,并对内部的矩形区域等比放大;基于放大后矩形区域的左上与右下角点坐标,从原始图像中抠出相应位置的矩形区域得到所述物体图像。
[0019]本专利技术在一较佳示例中可以进一步配置为:S3.1中所用到的公式为:
[0020][0021][0022][0023]其中,F表示所有特征图累加合并后得到的特征图,f
(x,y)
和m
(x,y)
分别表示F和掩码图在位置(x,y)处的值,w和h分别表示F的宽和高,f
ˉ
表示F的均值。
[0024]本专利技术在一较佳示例中可以进一步配置为:在S5中包含以下子步骤:
[0025]步骤S5.1:提取对应的双线性卷积神经网络中的两个网络的最后一个卷积层生成的特征图,并利用SPP模块对提取的特征图进行特征融合得到融合后特征图;
[0026]步骤S5.2:利用通道注意力模块对所述融合后特征图中的每个通道分配相应的权重得到加权特征图作为原始图像双线性特征图;
[0027]利用内置有通道注意力模块的双线性卷积神经网络提取所述缩放后物体图像的双线性特征图作为物体图像双线性特征图,包括以下子步骤:
[0028]步骤S5.2.1,提取对应的双线性卷积神经网络中的两个网络的最后一个卷积层生成的特征图;
[0029]步骤S5.2.2,利用通道注意力模块对特征图中的每个通道分配相应的权重得到加权特征图作为物体图像双线性特征图。
[0030]本专利技术在一较佳示例中可以进一步配置为:在S6中包含以下子步骤:
[0031]步骤S6.1,将所述原始图像双线性特征图或所述物体图像双线性特征图进行双线性池化融合得到一维特征向量;
[0032]步骤S6.2,将所述一维特征向量进行softmax分类预测得到所述原始图像类别概率或所述物体图像类别概率。
[0033]本专利技术在一较佳示例中可以进一步配置为:卷积神经网络和双线性卷积神经网络均使用vgg、resnet、darknet、shuffernet以及densenet中的任意一者作为主干网络。
[0034]综上所述,本专利技术包括以下至少一种有益技术效果:
[0035]相较于常规的卷积神经网络,本项专利技术中分类模型利用双线性卷积神经网络对特征图使用外积聚合获取通道之间的线性关系生成的双线性特征对物体细节的表达力更强。同时,通道注意力机制的引入令后续的分类更多的关注于高阶特征中与物体的关键信息相关度更高的通道。另外,通过物体注意力模型提取物体所在区域,令分类模型能够结合图像的全局和局部特征,有效地提高细粒度分类的精度
附图说明
[0036]图1是本技术方案网络的结构图;
[0037]图2是使用网络对细粒度图像进行分类的流程图;
[0038]图3是spp模块的结构图;
[0039]图4是本技术方案实施例的通道注意力模块结构图;
[0040]图5是双线性卷积神经网络的一种实现结构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制的细粒度图像分类系统,包括物体注意力模型和分类模型,其特征在于,所述物体注意力模型包括一个卷积神经网络和掩码映射模块,所述分类模型包含两个引入通道注意力机制的双线性卷积神经网络。2.一种基于注意力机制的细粒度图像分类方法,其特征在于,作用于上述物体注意力模型和分类模型,包括如下步骤:步骤S1:对原始图像进行缩放和像素归一化处理得到缩放后的原始图像;步骤S2:利用卷积神经网络提取S1中缩放后原始图像的高阶特征图;步骤S3:根据S2中得到的高阶特征图并利用掩码映射从S1中的原始图像中获取当前物体的物体图像;步骤S4:将S3中的物体图像缩放至与S1中缩放后的原始图像相同的尺寸得到缩放后的物体图像;步骤S5:利用内置的SPP模块和通道注意力模块的双线性卷积神经网络提取S4中缩放后的原始图像的双线性特征图作为原始图像双线性特征图,并利用内置有通道注意力模块的双线性卷积神经网络提取缩放后物体图像的双线性特征图作为物体图像双线性特征图;步骤S6:分别对S5中的原始图像双线性特征图和S5中的物体图像双线性特征图进行双线性池化融合并计算得到原始图像的类别概率作为原始图像类别概率以及物体图像的类别概率作为物体图像类别概率;步骤S7:将S6中的原始图像类别概率和S6中的物体图像类别概率加权求和作为最终的综合类别概率。3.根据权利要求2所述的一种基于注意力机制的细粒度图像分类方法,其特征在于,上述S3包括以下子步骤:步骤S3.1:沿通道累加所有的高阶特征图后取平均值并将得到的平均值作为阈值,把累加得到的特征图上的每一个点映射成0或1,得到特征图相应尺寸的掩码图;步骤S3.2:在S3.1中的掩码图中找到由1像素构成的最大连通域,并计算该最大连通域的外接矩形;步骤S3.3:将S3.1掩码图的尺寸调整至与缩放后原始图像相同的尺寸,并对内部的矩形区域等比放大;基于放大后矩形区域的左上与右下角点坐标,从原始图像中抠出相应位置的矩形区...

【专利技术属性】
技术研发人员:王伟栋沈修平
申请(专利权)人:上海悠络客电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1