一种基于融合注意力机制的图像识别方法技术

技术编号:37806492 阅读:15 留言:0更新日期:2023-06-09 09:36
本发明专利技术属于计算机视觉以及自然语音处理技术领域,具体涉及一种基于融合注意力机制的图像识别方法,包括:获取待识别的图像,将待识别图像输入到图像描述模型中,首先进行初始特征提取,分别采用通道注意力机制和空间注意力机制对初始特征图进行加权处理,并进行特征融合;采用两层长短期记忆网络对融合特征图进行识别解码,得到图像描述结果;本发明专利技术提出了使用两层长短期记忆网络融合多头注意力机制解决特征解码不准确的问题,提升了生成单词的准确性,提升图像描述模型的整体性能。提升图像描述模型的整体性能。提升图像描述模型的整体性能。

【技术实现步骤摘要】
一种基于融合注意力机制的图像识别方法


[0001]本专利技术属于计算机视觉以及自然语音处理
,具体涉及一种基于融合注意力机制的图像识别方法。

技术介绍

[0002]传统的计算器视觉等许多领域都得到了很大的提升,但是包括视觉导航、虚拟现实等一系列新兴技术的发展对计算机视觉尤其是图像描述提出了更高的要求,这些技术希望能够获得更为丰富、更为全面的图像信息,所以越来越多的研究者开始研究计算机视觉,其中针对图像描述的研究逐渐多了起来。图像描述包含了对图像信息的多层次利用,图像中的目标、目标间的关系、场景图的构建都属于图像描述研究的范畴。图像描述中目标检测等任务已经取得了一些进展,但是依然难以满足我们实际应用的要求。而图像描述、场景图构建等任务的研究还很缺乏,这些任务代表的是对图像更深层次的理解,也是图像内容理解中更为核心的问题。因此从总体上来看,图像描述中的各个任务既具有极大的研究价值也具有极大的实际应用价值。
[0003]传统的图像描述方法中存在过于僵化、灵活性不足等问题,极大的影响了它们的实际应用效果。随着深度学习被逐渐应用到其他领域,并且根据自身快速的计算能力,它可以在大数据的支持下针对特定任务获得最具有价值的信息,具体到计算机视觉领域它可以将图像压缩成一个包含大量信息的特征向量并针对不同的任务使用大量数据不断优化信息提取的效果,这样的特点对于图像内容理解是十分重要的,它可以获得许多图像中针对具体任务的潜在信息,大大提高对于图像信息的利用程度进而达到更好的实际效果,因此基于深度学习的方法是现在图像描述任务的主流方法,而伴随着对于深度学习的研究不断深入,许多新的模型和方法可以进一步提高各个图像描述任务的效果,可以从多个方面提升对图像信息的利用程度,推动计算机视觉领域的发展,进而对未来智能化社会的建设起到巨大的作用。
[0004]目前图像描述多采用基于深度学习的编码器

解码器框架作为基础框架。同时注意力机制也广泛应用到相关网络中,并且取得了不错的效果,提升了图像描述模型的性能。然而,对于大多数的编码器来说,只是简单的利用卷积神经网络或是使用了单一的注意力机制来辅助提取图像特征,这些方式并不能充分地提取利用图像特征,导致解码器得到的图像信息不够多,最终生成的描述语句也不够准确;对于生成描述的解码器来说,部分模型并未充分的解析编码器提取到的图像特征信息和长短期记忆网络(Long Short

Term Memory,LSTM)信息的相关性,对于单一的LSTM来说,句子的生成是由LSTM的隐藏状态来预测的,如果说不能够很好的结合特征信息,那么会导致生成的单词不够准确清晰。最终的预测的句子单词之间的相关性也就不高,达不到高质量描述的效果。

技术实现思路

[0005]为解决以上现有技术存在的问题,本专利技术提出了一种基于融合注意力机制的图像
识别方法,该方法包括:获取待识别的图像,将待识别图像输入到训练好的图像描述模型中,得到图像描述结果;根据图像描述结果对图像进行识别,得到图像识别结果;
[0006]对图像描述模型进行训练的过程包括:
[0007]S1:获取MSCOCO图像数据集,并对图像数据集中的图像进行预处理;
[0008]S2:将预处理后的图像输入到Resnet101网络中进行特征提取,得到初始特征图;
[0009]S3:分别采用通道注意力机制和空间注意力机制对初始特征图进行加权处理,将通道注意特征和空间注意力特征进行并行融合处理,得到融合特征图;
[0010]S4:采用两层长短期记忆网络对融合特征图进行识别解码,得到图像描述结果;
[0011]S5:根据识别结果计算模型的损失函数;
[0012]S6:采用强化学习损失策略对模型的参数进行优化,当损失函数最小时完成模型的训练。
[0013]优选的,采用通道注意力机制对初始特征进行处理的过程包括:采用最大值池化和平均池化分别对初始特征进行处理,得到图像的最大值特征和平均特征;将最大值特征和平均特征分别输入到多层感知机中进行降维处理,将降维后的最大值特征和平均特征进行聚合,并通过激活函数进行激活,得到通道注意特征。
[0014]优选的,采用空间注意力机制对初始特征进行处理的过程包括:将初始图像特征输入到多层感知机中提取特征权重,将提取的特征权重通过批量归一化层和平均池化层对每个通道上的信息进行融合,得到空间位置注意权重;根据空间位置注意权重计算图像的空间注意力特征。
[0015]优选的,将通道注意特征和空间注意力特征进行并行融合处理的公式为:
[0016][0017]其中,F表示初始输入特征,F
C
(F)表示通道注意特征,F
S
(F)表示空间注意特征,λ
C
和λ
S
为两个超参数,表示空间注意和通道注意融合之后的特征。
[0018]优选的,采用两层长短期记忆网络对融合特征图进行识别解码的过程包括:两层长短期记忆网络结合多头注意力机制组成解码器;将编码器提取的图像特征作为查询矩阵,第一个长短期记忆网络的输出作为键矩阵和值矩阵输入到多头点积注意模块中进行注意力融合;将注意力图像特征以及上一个时刻的隐藏状态一起输入到第二个长短期记忆网络中,计算得到在词汇表上的单词分布概率,根据单词分布概率得到一个单词序列;根据单词序列生成图像描述结果。
[0019]优选的,模型的损失函数表达式为:
[0020][0021]其中,L
XE
(θ)表示交叉熵损失,θ表示模型可学习参数,T表示词嵌入向量长度,p
θ
表示模型概率分布,表示真实值,表示真实的描述序列。
[0022]本专利技术的有益效果:
[0023]本专利技术结合通道注意力和空间注意力来辅助提取图像特征,使特征图能够包含更多的图像信息;本专利技术提出了使用两层长短期记忆网络融合多头注意力机制解决特征解码
不准确的问题,提升了生成单词的准确性,提升图像描述模型的整体性能。
附图说明
[0024]图1为本专利技术的通道注意力模块和空间注意力模块的结构图;
[0025]图2为本专利技术的解码器结构图;
[0026]图3为本专利技术的基于融合注意力机制的图像识别流程图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]一种基于融合注意力机制的图像识别方法,该方法包括:获取待识别的图像,将待识别图像输入到训练好的图像描述模型中,得到图像描述结果;根据图像描述结果对图像进行识别,得到图像识别结果。
[0029]对图像描述模型进行训练的过程包括:
[0030]S1:获取MSCOCO图像数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合注意力机制的图像识别方法,其特征在于,包括:获取待识别的图像,将待识别图像输入到训练好的图像描述模型中,得到图像描述结果;根据图像描述结果对图像进行识别,得到图像识别结果;对图像描述模型进行训练的过程包括:S1:获取MSCOCO图像数据集,并对图像数据集中的图像进行预处理;S2:将预处理后的图像输入到Resnet101网络中进行特征提取,得到初始特征图;S3:分别采用通道注意力机制和空间注意力机制对初始特征图进行加权处理,将通道注意特征和空间注意力特征进行并行融合处理,得到融合特征图;S4:采用两层长短期记忆网络对融合特征图进行识别解码,得到图像描述结果;S5:根据识别结果计算模型的损失函数;S6:采用强化学习损失策略对模型的参数进行优化,当损失函数最小时完成模型的训练。2.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,采用通道注意力机制对初始特征进行处理的过程包括:采用最大值池化和平均池化分别对初始特征进行处理,得到图像的最大值特征和平均特征;将最大值特征和平均特征分别输入到多层感知机中进行降维处理,将降维后的最大值特征和平均特征进行聚合,并通过激活函数进行激活,得到通道注意特征。3.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,采用空间注意力机制对初始特征进行处理的过程包括:将初始图像特征输入到多层感知机中提取特征权重,将提取的特征权重通过批量归一化层和平均池化层对每个通道上的信息进行融合,得到空间位置注意权重;根据空间位置注意权重计算图像的空间注意力特征。4.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,将通道注意特征和空间注意力特征进行并行融合处理的公式为:其中,F表示初始输入特征,F
C
(F)表示通道注意特征,F
S
(F)表示空间注意特征,λ
C
和λ
S
为两个超参数,表示空间注意和通道注意融合之后的特征。5.根据权利要求1所述的一种基于融合注意力机制的图像识别方法,其特征在于,采用两层长短期记忆网络对融合特征图进行识别解码的过程包括:两层长短期记忆网络结合多头注意力机制组成解码器;将编码器提取的图像特征作为查询矩阵,第一个长短期记忆网络的输出作为键矩阵和值矩阵输入到多头点积注意模块中进行注意力融合;将注意力图像特征以及上一个时刻的隐藏状态一起输入到第二个长短期记忆网络中,计算得到在词汇表上的单词分布概率,根据单词分布概率得到一个单词序列;根据单词序列生成图像描述结果。6.根据权利要求5所述的一种基于融合注意力机制的图像识别方法,其特征在于,长短期记忆网络包括四个模块,分别为遗忘门f
t
、输入门i
t
、输出门o
t
以及细胞状态c
t
;长短期记忆网络对输入数据进行计算的公式为:f
t
=σ(W
fh
h
t
‑1+W
fx
x
t
+b
f
)i
t
=σ(W
ih
h
t
‑1+W
ix
x
t
+b
i
)
o
t

【专利技术属性】
技术研发人员:陈善学林家镔
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1