一种基于融合注意力机制的图像识别方法技术

技术编号：37806492 阅读：15 留言：0更新日期：2023-06-09 09:36

本发明专利技术属于计算机视觉以及自然语音处理技术领域，具体涉及一种基于融合注意力机制的图像识别方法，包括：获取待识别的图像，将待识别图像输入到图像描述模型中，首先进行初始特征提取，分别采用通道注意力机制和空间注意力机制对初始特征图进行加权处理，并进行特征融合；采用两层长短期记忆网络对融合特征图进行识别解码，得到图像描述结果；本发明专利技术提出了使用两层长短期记忆网络融合多头注意力机制解决特征解码不准确的问题，提升了生成单词的准确性，提升图像描述模型的整体性能。提升图像描述模型的整体性能。提升图像描述模型的整体性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于融合注意力机制的图像识别方法

[0001]本专利技术属于计算机视觉以及自然语音处理
，具体涉及一种基于融合注意力机制的图像识别方法。

技术介绍

[0002]传统的计算器视觉等许多领域都得到了很大的提升，但是包括视觉导航、虚拟现实等一系列新兴技术的发展对计算机视觉尤其是图像描述提出了更高的要求，这些技术希望能够获得更为丰富、更为全面的图像信息，所以越来越多的研究者开始研究计算机视觉，其中针对图像描述的研究逐渐多了起来。图像描述包含了对图像信息的多层次利用，图像中的目标、目标间的关系、场景图的构建都属于图像描述研究的范畴。图像描述中目标检测等任务已经取得了一些进展，但是依然难以满足我们实际应用的要求。而图像描述、场景图构建等任务的研究还很缺乏，这些任务代表的是对图像更深层次的理解，也是图像内容理解中更为核心的问题。因此从总体上来看，图像描述中的各个任务既具有极大的研究价值也具有极大的实际应用价值。
[0003]传统的图像描述方法中存在过于僵化、灵活性不足等问题，极大的影响了它们的实际应用效果。随着深度学习被逐渐应用到其他领域，并且根据自身快速的计算能力，它可以在大数据的支持下针对特定任务获得最具有价值的信息，具体到计算机视觉领域它可以将图像压缩成一个包含大量信息的特征向量并针对不同的任务使用大量数据不断优化信息提取的效果，这样的特点对于图像内容理解是十分重要的，它可以获得许多图像中针对具体任务的潜在信息，大大提高对于图像信息的利用程度进而达到更好的实际效果，因此基于深度学习的方法是现在图像描述任务的...

【技术保护点】

【技术特征摘要】
1.一种基于融合注意力机制的图像识别方法，其特征在于，包括：获取待识别的图像，将待识别图像输入到训练好的图像描述模型中，得到图像描述结果；根据图像描述结果对图像进行识别，得到图像识别结果；对图像描述模型进行训练的过程包括：S1：获取MSCOCO图像数据集，并对图像数据集中的图像进行预处理；S2：将预处理后的图像输入到Resnet101网络中进行特征提取，得到初始特征图；S3：分别采用通道注意力机制和空间注意力机制对初始特征图进行加权处理，将通道注意特征和空间注意力特征进行并行融合处理，得到融合特征图；S4：采用两层长短期记忆网络对融合特征图进行识别解码，得到图像描述结果；S5：根据识别结果计算模型的损失函数；S6：采用强化学习损失策略对模型的参数进行优化，当损失函数最小时完成模型的训练。2.根据权利要求1所述的一种基于融合注意力机制的图像识别方法，其特征在于，采用通道注意力机制对初始特征进行处理的过程包括：采用最大值池化和平均池化分别对初始特征进行处理，得到图像的最大值特征和平均特征；将最大值特征和平均特征分别输入到多层感知机中进行降维处理，将降维后的最大值特征和平均特征进行聚合，并通过激活函数进行激活，得到通道注意特征。3.根据权利要求1所述的一种基于融合注意力机制的图像识别方法，其特征在于，采用空间注意力机制对初始特征进行处理的过程包括：将初始图像特征输入到多层感知机中提取特征权重，将提取的特征权重通过批量归一化层和平均池化层对每个通道上的信息进行融合，得到空间位置注意权重；根据空间位置注意权重计算图像的空间注意力特征。4.根据权利要求1所述的一种基于融合注意力机制的图像识别方法，其特征在于，将通道注意特征和空间注意力特征进行并行融合处理的公式为：其中，F表示初始输入特征，F
C
(F)表示通道注意特征，F
S
(F)表示空间注意特征，λ
C
和λ
S
为两个超参数，表示空间注意和通道注意融合之后的特征。5.根据权利要求1所述的一种基于融合注意力机制的图像识别方法，其特征在于，采用两层长短期记忆网络对融合特征图进行识别解码的过程包括：两层长短期记忆网络结合多头注意力机制组成解码器；将编码器提取的图像特征作为查询矩阵，第一个长短期记忆网络的输出作为键矩阵和值矩阵输入到多头点积注意模块中进行注意力融合；将注意力图像特征以及上一个时刻的隐藏状态一起输入到第二个长短期记忆网络中，计算得到在词汇表上的单词分布概率，根据单词分布概率得到一个单词序列；根据单词序列生成图像描述结果。6.根据权利要求5所述的一种基于融合注意力机制的图像识别方法，其特征在于，长短期记忆网络包括四个模块，分别为遗忘门f
t
、输入门i
t
、输出门o
t
以及细胞状态c
t
；长短期记忆网络对输入数据进行计算的公式为：f
t
＝σ(W
fh
h
t
‑1+W
fx
x
t
+b
f
)i
t
＝σ(W
ih
h
t
‑1+W
ix
x
t
+b
i
)
o
t

【专利技术属性】
技术研发人员：陈善学，林家镔，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人