基于互注意力的特征图编码方法、装置及电子设备制造方法及图纸

技术编号：30163869 阅读：19 留言：0更新日期：2021-09-25 15:18

本发明专利技术属于图像处理领域，具体涉及一种基于互注意力的特征图编码方法、装置及电子设备，所述方法包括获取待处理的特征图，将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量；通过第一向量和第二向量计算所有特征图之间的互注意力得分情况，利用卷积模块对特征图进行重新编码；本发明专利技术将不同特征图信息按一定注意力权重进行融合，使得重新编码后的特征图所包含的信息更加全面且有效，即在编码过程中，所含信息越丰富的输入特征图在重编码后的特征图中保留所占的比重就会越大，能够充分挖掘出特征图的信息。的信息。的信息。

全部详细技术资料下载

【技术实现步骤摘要】
基于互注意力的特征图编码方法、装置及电子设备

[0001]本专利技术属于图像处理领域，具体涉及一种基于特征图之间互注意力对特征图进行重新编码的方法、装置及电子设备。

技术介绍

[0002]图像作为人类感知事物的视觉基础，是人类从外界获得信息的重要依据和感知外界的重要方式，在此背景下，通过各种方式对图像进行处理使得图像中包含的信息越来越精确和丰富显得愈发重要。近些年来，随着深度学习技术的快速发展，深度神经网络在图像处理等领域也得到了广泛使用。
[0003]尽管深度神经网络在图像处理等领域取得了重大突破，但就效率和准确性来说，深度神经网络对图像的处理识别相比于人类的视觉感知仍有很多不足。人类对外部环境的感知是有条件的，能够通过视觉注意力机制有选择地获得需要重点关注的目标区域，而后对该区域投入更多注意力资源以获取更多所需要关注目标的细节信息，仅就这一点来说，标准的神经网络图像处理相比于人类的视觉感知还有不小的差距。目前来说，已有一些工作将注意力机制引入到深度神经网络中来。比如，通过结合注意力机制，RNN等深度神经网络可以进行端到端的训练和预测，在机器翻译和文本识别领域都有着独特的优势；语音识别经典模型CTC，在基于注意力机制的编码器
‑
解码器结构中由于注意力机制建立了语音和单词的对应关系，取得了很好的效果。
[0004]在图像处理领域，已有的深度神经网络进行特征图编码的工作大多是直接通过卷积捕局部信息，而就像视频帧序列中前后帧图片存在关联性一样，时序图片提取的特征图之间也可能存在时序性的关...

【技术保护点】

【技术特征摘要】
1.一种基于互注意力的特征图编码方法，其特征在于，所述方法包括获取待处理的特征图，将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量；通过第一向量和第二向量计算所有特征图之间的互注意力得分情况，利用卷积模块对特征图进行重新编码。2.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，所述将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量包括通过卷积模块的若干层卷积层提取出特征图的特征信息，将所述特征信息经过线性操作后编码成两个相同且维度可调的第一向量和第二向量。3.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，所述通过第一向量和第二向量计算所有特征图之间的互注意力得分情况包括通过公式W
ij
＝q
i
·
k
jT
计算所有特征图之间的互注意力得分情况；其中，W
ij
表示第i个特征图与第j个特征图之间的互注意力得分；q
i
表示第i个特征图的第一向量；k
j
表示第j个特征图的第二向量；T表示矩阵转置，n表示特征图个数，且i,j＝1,..,n。4.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，所述利用卷积模块对特征图进行重新编码包括对输入特征图按如下公式进行重新编码：其中，M
i
表示第i个重新编码后的特征图；W
ij
表示第i个特征图与第j个特征图之间的互注意力得分；M
j
表示第j个编码前的特征图；n表示特征图个数，且i,j＝1,..,n。5.根据权利要求1所述的一种基于互注意力的特征图编码方法，其特征在于，在利用卷积模块对特征图进行重新编码之后还包括将重新编码后的特征图作为下一卷积模块的输入，并继续编码为两个相同且维度可调的第一向量和第二向量，通过第一向量和第二向量计算所有特征图之间的互注意力得分情...

【专利技术属性】
技术研发人员：戴大伟，庄志国，徐嘉，王春杰，夏书银，朱宏飞，王国胤，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人