基于互注意力的特征图编码方法、装置及电子设备制造方法及图纸

技术编号:30163869 阅读:19 留言:0更新日期:2021-09-25 15:18
本发明专利技术属于图像处理领域,具体涉及一种基于互注意力的特征图编码方法、装置及电子设备,所述方法包括获取待处理的特征图,将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量;通过第一向量和第二向量计算所有特征图之间的互注意力得分情况,利用卷积模块对特征图进行重新编码;本发明专利技术将不同特征图信息按一定注意力权重进行融合,使得重新编码后的特征图所包含的信息更加全面且有效,即在编码过程中,所含信息越丰富的输入特征图在重编码后的特征图中保留所占的比重就会越大,能够充分挖掘出特征图的信息。的信息。的信息。

【技术实现步骤摘要】
基于互注意力的特征图编码方法、装置及电子设备


[0001]本专利技术属于图像处理领域,具体涉及一种基于特征图之间互注意力对特征图进行重新编码的方法、装置及电子设备。

技术介绍

[0002]图像作为人类感知事物的视觉基础,是人类从外界获得信息的重要依据和感知外界的重要方式,在此背景下,通过各种方式对图像进行处理使得图像中包含的信息越来越精确和丰富显得愈发重要。近些年来,随着深度学习技术的快速发展,深度神经网络在图像处理等领域也得到了广泛使用。
[0003]尽管深度神经网络在图像处理等领域取得了重大突破,但就效率和准确性来说,深度神经网络对图像的处理识别相比于人类的视觉感知仍有很多不足。人类对外部环境的感知是有条件的,能够通过视觉注意力机制有选择地获得需要重点关注的目标区域,而后对该区域投入更多注意力资源以获取更多所需要关注目标的细节信息,仅就这一点来说,标准的神经网络图像处理相比于人类的视觉感知还有不小的差距。目前来说,已有一些工作将注意力机制引入到深度神经网络中来。比如,通过结合注意力机制,RNN等深度神经网络可以进行端到端的训练和预测,在机器翻译和文本识别领域都有着独特的优势;语音识别经典模型CTC,在基于注意力机制的编码器

解码器结构中由于注意力机制建立了语音和单词的对应关系,取得了很好的效果。
[0004]在图像处理领域,已有的深度神经网络进行特征图编码的工作大多是直接通过卷积捕局部信息,而就像视频帧序列中前后帧图片存在关联性一样,时序图片提取的特征图之间也可能存在时序性的关联,即特征图之间的相互影响。仅通过卷积进行特征图编码的机制没有计算特征图之间的相互影响权重,导致特征信息不够全面,没有充分挖掘出特征信息之间的关系。

技术实现思路

[0005]为解决现有技术存在的问题,本专利技术提出一种基于互注意力的特征图编码方法、装置及电子设备,并利用特征图之间相互注意力的得分情况,来对每一张特征图进行重新编码,让在重新编码后的每张特征图中都包含更加丰富的信息。
[0006]在本专利技术的第一方面,本专利技术提供了一种基于互注意力的特征图编码方法,所述方法包括获取待处理的特征图,将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量;通过第一向量和第二向量计算所有特征图之间的互注意力得分情况,利用卷积模块对特征图进行重新编码。
[0007]进一步的,所述将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量包括通过卷积模块的若干层卷积层提取出特征图的特征信息,将所述特征信息经过线性操作后编码成两个相同且维度可调的第一向量和第二向量。
[0008]进一步的,所述通过第一向量和第二向量计算所有特征图之间的互注意力得分情
况包括通过公式W
ij
=q
i
·
k
jT
计算所有特征图之间的互注意力得分情况;其中,W
ij
表示第i个特征图与第j个特征图之间的互注意力得分;q
i
表示第i个特征图的第一向量;k
j
表示第j个特征图的第二向量;T表示矩阵转置,n表示特征图个数,且i,j=1,..,n。
[0009]进一步的,所述利用卷积模块对特征图进行重新编码包括对输入特征图按如下公式进行重新编码:其中,M
i
表示第i个重新编码后的特征图;W
ij
表示第i个特征图与第j个特征图之间的互注意力得分;M
j
表示第j个编码前的特征图;n表示特征图个数,且i,j=1,..,n。
[0010]优选的,在利用卷积模块对特征图进行重新编码之后还包括将重新编码后的特征图作为下一卷积模块的输入,并继续编码为两个相同且维度可调的第一向量和第二向量,通过第一向量和第二向量计算所有特征图之间的互注意力得分情况,利用卷积模块对特征图进行重新编码。
[0011]在本专利技术的第二方面,本专利技术还提供了一种基于互注意力的特征图编码装置,包括:
[0012]特征图采集模块,用于获取待处理的特征图;
[0013]第一卷积模块,用于对待处理的每个特征图编码为两个相同且维度可调的第一向量和第二向量;
[0014]互注意力计算模块,用于通过第一向量和第二向量计算所有特征图之间的互注意力得分情况;
[0015]第二卷积模块,用于对待处理的特征图重新编码为新的特征图。
[0016]进一步的,所述第一卷积模块包括卷积单元和线性单元;通过若干卷积单元提取出特征图的特征信息,将所述特征信息经过线性单元编码成两个相同且维度可调的第一向量和第二向量。
[0017]进一步的,所述互注意力计算模块通过公式W
ij
=q
i
·
k
jT
计算所有特征图之间的互注意力得分情况;其中,W
ij
表示第i个特征图与第j个特征图之间的互注意力得分;q
i
表示第i个特征图的第一向量;k
j
表示第j个特征图的第二向量;T表示矩阵转置,n表示特征图个数,且i,j=1,..,n。
[0018]进一步的,所述第二卷积模块对输入特征图按如下公式进行重新编码:其中,M
i
表示第i个重新编码后的特征图;W
ij
表示第i个特征图与第j个特征图之间的互注意力得分;M
j
表示第j个编码前的特征图;n表示特征图个数,且i,j=1,..,n。
[0019]在本专利技术的第三方面,本专利技术还提供了一种电子设备,包括:
[0020]至少一个处理器,以及,
[0021]与所述至少一个处理器通信连接的存储器;其中,
[0022]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本专利技术第一方面所述的一种基于互注意力的特征图编码方法。
[0023]本专利技术的有益效果:
[0024]本专利技术在重新编码特征图的过程中,将输入特征图经过卷积模块编码为两个向
量,而后通过计算所有特征图之间的互注意力得分,对输入特征图进行重新编码。通过求得所有特征图之间相互的注意力信息,将不同特征图信息按一定注意力权重进行融合,使得重新编码后的特征图所包含的信息更加全面且有效,即在编码过程中,所含信息越丰富的输入特征图在重编码后的特征图中保留所占的比重就会越大。此外,编码过程增加的计算开销也十分有限,能够保证本专利技术的编码方案的可行性。
附图说明
[0025]图1是本专利技术实施例中基于互注意力的特征图编码方法流程图;
[0026]图2是本专利技术实施例中特征图经卷积模块编码得到第一和第二向量的结构图;
[0027]图3是本专利技术实施例中利用互注意力得分对特征图进行重编码的结构图;
[0028]图4是本专利技术一个实施例中基于重编码获取特征图间互注意力对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于互注意力的特征图编码方法,其特征在于,所述方法包括获取待处理的特征图,将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量;通过第一向量和第二向量计算所有特征图之间的互注意力得分情况,利用卷积模块对特征图进行重新编码。2.根据权利要求1所述的一种基于互注意力的特征图编码方法,其特征在于,所述将待处理的每个特征图经过卷积模块后编码为两个相同且维度可调的第一向量和第二向量包括通过卷积模块的若干层卷积层提取出特征图的特征信息,将所述特征信息经过线性操作后编码成两个相同且维度可调的第一向量和第二向量。3.根据权利要求1所述的一种基于互注意力的特征图编码方法,其特征在于,所述通过第一向量和第二向量计算所有特征图之间的互注意力得分情况包括通过公式W
ij
=q
i
·
k
jT
计算所有特征图之间的互注意力得分情况;其中,W
ij
表示第i个特征图与第j个特征图之间的互注意力得分;q
i
表示第i个特征图的第一向量;k
j
表示第j个特征图的第二向量;T表示矩阵转置,n表示特征图个数,且i,j=1,..,n。4.根据权利要求1所述的一种基于互注意力的特征图编码方法,其特征在于,所述利用卷积模块对特征图进行重新编码包括对输入特征图按如下公式进行重新编码:其中,M
i
表示第i个重新编码后的特征图;W
ij
表示第i个特征图与第j个特征图之间的互注意力得分;M
j
表示第j个编码前的特征图;n表示特征图个数,且i,j=1,..,n。5.根据权利要求1所述的一种基于互注意力的特征图编码方法,其特征在于,在利用卷积模块对特征图进行重新编码之后还包括将重新编码后的特征图作为下一卷积模块的输入,并继续编码为两个相同且维度可调的第一向量和第二向量,通过第一向量和第二向量计算所有特征图之间的互注意力得分情...

【专利技术属性】
技术研发人员:戴大伟庄志国徐嘉王春杰夏书银朱宏飞王国胤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1