基于双级注意力的图像识别方法及装置制造方法及图纸

技术编号:33208187 阅读:21 留言:0更新日期:2022-04-24 00:58
本发明专利技术是关于一种基于双级注意力的图像识别方法和装置,其中,方法包括:获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;从预处理后的原始图像中提取抽象特征图;根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。通过该技术方案,提高网络训练效率,提升预测的准确率。准确率。准确率。

【技术实现步骤摘要】
基于双级注意力的图像识别方法及装置


[0001]本专利技术涉及图像识别
,尤其涉及一种基于双级注意力的图像识别方法和装置。

技术介绍

[0002]图像分类是根据图像中的目标的语义信息,判断目标所属的类别的工作,是计算机视觉领域中的重要研究方向。在实际应用的各个领域中,图像分类都有重要的作用,例如生物识别技术中的人脸识别,自动驾驶技术中的交通场景识别,临床医学领域中的医学图像识别等。
[0003]目前,深度学习方法在图像分类工作中得到了广泛的应用。卷积神经网络能高效地识别图片的语义信息,判断图片中物体所属的分类。一般来说,位于目标区域的像素点能提供较多的有利于识别语义的特征信息,而背景像素点能提供的特征信息相对较少。但目前的方法通常对图片全图进行同等的特征提取,不考虑物体与背景的差异性,降低了模型的训练效率。此外,也有通过裁剪背景等方式,只对目标进行特征提取的方法,但这些方法完全舍弃了背景信息,使模型提取到的可用特征信息减少,降低了分类器的准确率。

技术实现思路

[0004]为克服相关技术中存在的问题,本专利技术提供一种基于双级注意力的图像识别方法和装置,从而实现保留背景信息的同时,提高网络训练效率,提升预测的准确率。
[0005]根据本专利技术实施例的第一方面,提供一种基于双级注意力的图像识别方法,所述方法包括:获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;从预处理后的原始图像中提取抽象特征图;根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
[0006]在一个实施例中,优选地,根据所述二值目标定位图和抽象特征图,计算得到物体特征图和背景特征图,包括:使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
[0007]在一个实施例中,优选地,使用空间注意力机制处理所述物体特征图,以得到新的
物体特征图,包括:使用空间注意力机制计算空间像素权重分布;将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
[0008]在一个实施例中,优选地,使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图,包括:将所述新的物体特征图和背景特征图融合,以得到所述总特征图;使用通道注意力机制计算通道权重向量;将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
[0009]在一个实施例中,优选地,使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果,包括:使用全连接层计算所述新的总特征图的特征映射向量;通过所述分类器确定所述特征映射向量对应的概率分布;将最大概率对应的类别确定为所述原始图像所属的图像类别。
[0010]根据本专利技术实施例的第二方面,提供一种基于双级注意力的图像识别装置,所述装置包括:数据获取模块,用于获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;特征提取模块,用于从预处理后的原始图像中提取抽象特征图;计算模块,用于根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;第一注意力模块,用于使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;第二注意力模块,用于使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;分类模块,用于使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
[0011]在一个实施例中,优选地,计算模块包括:第一计算单元,用于使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;第二计算单元,用于将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。
[0012]在一个实施例中,优选地,第一注意力模块包括:第三计算单元,用于使用空间注意力机制计算空间像素权重分布;第四计算单元,用于将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。
[0013]在一个实施例中,优选地,第二注意力模块包括:融合单元,用于将所述新的物体特征图和背景特征图融合,以得到所述总特征图;
第五计算单元,用于使用通道注意力机制计算通道权重向量;第六计算单元,用于将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。
[0014]在一个实施例中,优选地,所述分类模块包括:第七计算单元,用于使用全连接层计算所述新的总特征图的特征映射向量;第一确定单元,用于通过所述分类器确定所述特征映射向量对应的概率分布;第二确定单元,用于将最大概率对应的类别确定为所述原始图像所属的图像类别。
[0015]根据本专利技术实施例的第三方面,提供一种基于双级注意力的图像识别装置,所述装置包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;从预处理后的原始图像中提取抽象特征图;根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。
[0016]根据本专利技术实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现第一方面中任一项所述方法的步骤。
[0017]本专利技术的实施例提供的技术方案可以包括以下有益效果:本专利技术实施例中,将二值目标定位图作为分类器的输入使用,而不是将二值定位图作为图像的预处理工具,通过利用定位图进行并行的局部卷积计算,将物体与背景分离到不同的通道中,通过channel attention(通道注意力)机制调整网络对于物体与背景的偏好,保留了背景信息的同时,提高了网络训练效率,提升了预测的准确率;另一方面,本专利技术通过提取物体特征图,配合spatial attention(空间注意力)机制,更有效地增强了位于物体区域的重要像素点的重要性,减少了常规空间注意力机制中用于背景像素点的梯度计算,提升了网络训练效率。
[0018]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0019]此处的附图被并入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双级注意力的图像识别方法,其特征在于,所述方法包括:获取原始图像和对应的二值目标定位图,并对所述原始图像进行预处理,将所述二值目标定位图缩放为预设尺寸;从预处理后的原始图像中提取抽象特征图;根据所述二值目标定位图和抽象特征,计算得到物体特征图和背景特征图;使用空间注意力机制处理所述物体特征图,以得到新的物体特征图;使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图;使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果。2.根据权利要求1所述的方法,其特征在于,根据所述二值目标定位图和抽象特征图,计算得到物体特征图和背景特征图,包括:使用所述二值目标定位图计算分别得到用于物体的掩膜和用于背景的掩膜;将用于物体的掩膜和用于背景的掩膜分别与所述抽象特征图融合后进行对应的卷积计算,以得到所述物体特征图和背景特征图。3.根据权利要求1所述的方法,其特征在于,使用空间注意力机制处理所述物体特征图,以得到新的物体特征图,包括:使用空间注意力机制计算空间像素权重分布;将所述空间像素权重分布与所述物体特征图进行逐元素相乘计算,以得到更新物体像素权重的新的物体特征图。4.根据权利要求1所述的方法,其特征在于,使用通道注意力机制处理所述新的物体特征图和背景特征图融合后的总特征图,以得到新的总特征图,包括:将所述新的物体特征图和背景特征图融合,以得到所述总特征图;使用通道注意力机制计算通道权重向量;将所述通道权重向量与所述总特征图进行逐元素相乘计算,以得到所述新的总特征图。5.根据权利要求1所述的方法,其特征在于,使用全连接层计算所述新的总特征图的特征映射向量,并通过分类器确定分类结果,包括:使用全连接层计算所述新的总特征图的特征映射向量;通过所述分类器确定所述特征映射向量对应的概率分布;将最大概率对应的类别确定为所述原始图像所属的图像类别。6.一种基于双级注意力的图像识别...

【专利技术属性】
技术研发人员:张凯徐卿袭肖明杨光远
申请(专利权)人:山东力聚机器人科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1