一种基于深度学习的分组非局部注意力方法技术

技术编号:37383172 阅读:8 留言:0更新日期:2023-04-27 07:24
本发明专利技术公开了一种基于深度学习的分组非局部注意力方法,首先对原始输入进行预处理;然后对预处理特征进行切片,遍历待增强特征所对应的n个小特征进行相关性选择,得到最终需要的K个小特征NF;将K个NF与CF进行组内非局部注意力操作,得到增强后的CF;最后遍历结束后将所有经过增强后的CF特征进行拼接处理得到最终输出特征。本发明专利技术减少了传统非局部注意力的计算资源的消耗,并且在一定程度上大大降低了无用信息对于注意力机制性能发挥的干扰。了无用信息对于注意力机制性能发挥的干扰。了无用信息对于注意力机制性能发挥的干扰。

【技术实现步骤摘要】
一种基于深度学习的分组非局部注意力方法


[0001]本专利技术属于深度学习领域,适用于各类三维度特征处理类别,具体涉及一种基于深度学习的分组非局部注意力方法。

技术介绍

[0002]注意力机制目前广泛运用于深度学习领域,注意力机制往往起着对特征的相关信息增强和非相关信息衰弱的作用,作用域分为对单一特征进行空间或者通道的注意力方式和对多个特征进行联合注意力的方式。
[0003]目前从类别上可将注意力机制分为通道注意力、空间注意力、时间注意力、非局部注意力。
[0004]通道注意力往往是对输入特征进行通道方面的信息搜寻与特征增强,常见的通道注意力往往是伴随着全局池化层和FC层得到一个embeding选择矩阵,用这个选择矩阵与原始特征进行点乘得到输出。
[0005]空间注意力相反是对输入特征进行空间维度上的信息搜寻与特征增强,常见的空间注意力采用了空间上的平均池化核最大池获取一个embeding选择矩阵,之后对embeding进行上采样后与原始特征进行点乘得到输出。
[0006]时间注意力与前两者不同的是,它往往的作用对象是多个输入特征,并且为了使注意力机制的效果最大化,这些特征往往拥有对应像素点的假性相关性,即输入特征在同样的坐标位置下所代表的的涵义大致相同,在图像处理领域也可以理解为两幅图像是经过“对齐”处理过后的,在这种前提下,将输入特征之间互相点乘,便可以进行每个像素点上的信息过滤和增强。
[0007]非局部注意力的作用域并不局限于一个输入或多个输入,大多数非局部注意力方法会将输入分成三个部分:query、key和value;最后两个维度分别是[N,C],[C,N],[N,C],在处理过程中首先将query与key进行相似度计算得到一个权重,此时会进行举证乘法,得到的特征后两维是[N,N],之后对这个权重用softmax函数进行归一化处理。最后将归一化后的权重与value进行矩阵乘法得到一个最后两维为[N,C]的特征作为注意力的输出。
[0008]在非局部注意力是实际使用中,矩阵乘法对于资源的消耗是非常巨大的,许多算法并不能对非局部注意力进行完全的使用,往往是使用了经过下采样预处理之后简化的非局部注意力,而这种使用方式并不能有效地发挥非局部注意力的性能。并且非局部注意力因为其感受野是全局的,但是信息的相关性一般是稀疏的,对全局信息进行矩阵乘法会获得大量无关信息,这对最终结果会造成严重的干扰,会影响最终性能的表现。

技术实现思路

[0009]针对现有技术中存在的不足,本专利技术提供一种基于深度学习的分组非局部注意力方法。
[0010]本专利技术将非局部注意力进行分组处理,它会将两个输入特征拆分成自定义大小的
2*n个小特征,分为n个A输入所拆分得到的小特征(CenterFeature,简称CF)和n个B输入所拆分得到的小特征(NeighborFeature,简称NF),随后对每个CF寻找到相关性最高的K个NF,之后对这K+1个小特征进行组内非局部注意力计算得到最终的增强后的CF。
[0011]本专利技术减少了传统非局部注意力的计算资源的消耗,并且在一定程度上大大降低了无用信息对于注意力机制性能发挥的干扰。
[0012]本专利技术可以使用在图像生成领域中发挥特征增强的功能作用。
[0013]分组非局部注意力的定义结构:
[0014]Attn=Init(n,K,Channel)K<n
[0015]其中n表切块数量,K表示CF所选择的NF数量,Channel表示输入特征的通道。
[0016]本专利技术的输入输出为双输入单输出方式:
[0017]A
plus
=f
attn
(A
orin
,B
orin
)
[0018]其中A和B表示两个被处理特征,两者的维度必须相等;f
attn
表示组合非局部注意力模块,plus表示经过注意力增强后的特征,orin表示原始输入特征。
[0019]具体的数据处理流程如下:
[0020]一种基于深度学习的分组非局部注意力方法,步骤如下:
[0021]步骤1.对原始输入进行预处理;
[0022]步骤2.对预处理特征进行切片,得到n个A输入所拆分得到的小特征CF和n个B输入所拆分得到的小特征NF;
[0023]步骤3.遍历待增强特征所对应的n个小特征进行相关性选择,得到最终需要的K个小特征NF;
[0024]步骤4.将K个NF与CF进行组内非局部注意力操作,得到增强后的CF;
[0025]步骤5.遍历结束后将所有经过增强后的CF特征进行拼接处理得到最终输出特征;
[0026]进一步的,步骤1具体方法如下;
[0027]对原始输入进行预处理;
[0028]F
pre
=Conv
pre
(F
orin
)
[0029]其中F
pre
表示处理结果特征,包括A
pre
和B
pre
其中B
pre
的作用是对A
pre
进行辅助增强,使得A
pre
能够从B
pre
获得更充分的信息来增强A
pre
;Conv
pre
表示卷积层计算过程;F
orin
表示初始输入特征,包括A
orin
和B
orin
。此步骤处理的目的在于将特征的数据处理成适应于注意力结构的特征数据。
[0030]进一步的,步骤2具体方法如下;
[0031][0032][0033]其中n表示切块数量,根据实际应用情况适应性定义,要求被处理特征必须能够切成完整的n个小特征;和分别表示A
pre
和B
pre
切块后的小矩阵,他们之间的维度是相等的;Split表示切块处理,会根据切块数量在空间维度上对A
pre
和B
pre
均等切割。
[0034]进一步的,步骤3具体方法如下;
[0035]遍历待增强特征所对应的n个小特征进行相关性选择,得到最终需要的K个小特征NF;
[0036][0037]其中,K表示需要选择的数量,根据实际应用情况适应性定义;NF表示所选择得到的B特征所包括的小特征;CF表示当前所遍历到的A特征所包括的小特征,Search是一个抽象化的搜索算法,其具体步骤如下:
[0038]F
CF
=repeat(CF)
[0039]F
cat
=concat(F
CF
,B
pre
)
[0040]F
max
=Maxpool(L(F
cat
))
[0041]F
avg
=本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的分组非局部注意力方法,其特征在于,步骤如下:步骤1.对原始输入进行预处理;步骤2.对预处理特征进行切片,得到n个A输入所拆分得到的小特征CF和n个B输入所拆分得到的小特征NF;步骤3.遍历待增强特征所对应的n个小特征进行相关性选择,得到最终需要的K个小特征NF;步骤4.将K个NF与CF进行组内非局部注意力操作,得到增强后的CF;步骤5.遍历结束后将所有经过增强后的CF特征进行拼接处理得到最终输出特征。2.根据权利要求1所述的一种基于深度学习的分组非局部注意力方法,其特征在于,步骤1具体方法如下;F
pre
=Conv
pre
(F
orin
)其中F
pre
表示处理结果特征,包括A
pre
和B
pre
其中B
pre
的作用是对A
pre
进行辅助增强,使得A
pre
能够从B
pre
获得更充分的信息来增强A
pre
;Conv
pre
表示卷积层计算过程;F
orin
表示初始输入特征,包括A
orin
和B
orin
;此步骤处理的目的在于将特征的数据处理成适应于注意力结构的特征数据。3.根据权利要求2所述的一种基于深度学习的分组非局部注意力方法,其特征在于,步骤2具体方法如下;骤2具体方法如下;其中n表示切块数量,根据实际应用情况适应性定义,要求被处理特征必须能够切成完整的n个小特征;和分别表示A
pre
和B
pre
切块后的小矩阵,他们之间的维度是相等的;Split表示切块处理,会根据切块数量在空间维度上对A
pre
和B
pre
均等切割。4.根据权利要求3所述的一种基于深度学习的分组非局部注意力方法,其特征在于,步骤3具体方法如下;步骤4.将K个NF与CF进行组内非局部注意力操作,得到增强后的CF;其中,K表示需要选择的数量,根据实际应用情况适应性定义;NF表示所选择得到的B特征所包括的小特征;CF表示当前所遍历到的A特征所包括的小特征,Search是一个抽象化的搜索算法,其具体步骤如下:F
CF
=repeat(CF)F
cat
=concat(F
CF
,B
pre
)F
max
=Maxpool(L(F
cat
))F
avg...

【专利技术属性】
技术研发人员:颜成钢汤乐毛钰高宇涵孙垚棋朱尊杰陈楚翘王鸿奎王廷宇殷海兵张继勇李宗鹏赵治栋
申请(专利权)人:杭电丽水研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1