【技术实现步骤摘要】
基于Transformer模型的局部信息融合的语音识别网络及方法、终端
[0001]本专利技术涉及语音识别
,尤其涉及基于Transformer模型的局部信息融合的语音识别网络及识别方法及终端。
技术介绍
[0002]近年来,各种各样的神经网络建模方法在语音识别任务中实现了不错的效果。
[0003]在众多方法中,Transformer网络凭借其出色的并行计算能力和捕捉序列间的长距离依赖能力而称为学术界和工业界研究的热门。
[0004]现有的Transformer模型采用注意力机制来构建序列之间的依赖关系,获取每个字符(音频)与序列中其他的字符(音频)的关联性。
[0005]然而这种注意力机制并没有明确地体现出其局部信息提取能力,因为对于语音识别任务而言,在保证有长依赖关系的条件下(全局信息),局部依赖(局部信息)更为重要。
技术实现思路
[0006]为了解决现有技术存在的问题,本专利技术的目的在于提供一种基于Transformer模型的局部信息融合的语音识别网络。
[00 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer模型的局部信息融合的语音识别网络,包括编码器及解码器,其特征在于,所述编码器的多头注意力模块MHA,解码器的多头交叉注意力模块MHCA上使用受限范围内的局部特征掩码LFMRS。2.根据权利要求1所述的基于Transformer模型的局部信息融合的语音识别网络,其特征在于,所述编码器由一个局部增强多头自注意力LMHA模块和一个位置前馈网络FFN模块组成。3.根据权利要求1所述的基于Transformer模型的局部信息融合的语音识别网络,其特征在于,所述解码器块由一个多头自注意MHA模块、一个局部增强多头交叉注意LMHCA模块和一个位置前馈网络FFN模块组成。4.根据权利要求2或3所述的基于Transformer模型的局部信息融合的语音识别网络,其特征在于,各个模块都加入残差连接和层归一化。5.根据权利要求2所述的基于Transformer模型的局部信息融合的语音识别网络,其特征在于,所述编码器中,将LFMRS模块应用于原始的编码器的注意力机制上,得到LMHA模块;所述LMHA模块的公式可由下式给出:LMHA(X
n
‑1,X0)=LMHA(Q1,K1,V1,Q2,K2)W0LMHA(Q1,K1,V1,Q2,K2)=Concat(head1,...,head
H
)Attention(Q1,K1,V1,Q2,K2)=Softmax(energy
i
+LFMRS
i
(X0))V1其中head
t
表示LMHA模块中第i个头的输出,总共有H个头,表示LMHA模块中第i个头的输出,总共有H个头,是可训练参数权重矩阵,并且满足d
q
=d
k
=d
v
=d
model
/H;energy
i
表示第i个原始自注意力头的注意力矩阵,LFMRS
i
(X0)表示从X0提取到的第i个局部注意力头的注意力矩阵;encoder local mask(
·
)的详细算法是:encoder local mask(
·
)=torch.triu(torch.ones(T1,T1),diagonal=win+1)+torch.tril(torch.ones(T1,T1)紧跟在LMHA模块之后的是位置前馈网络FFN)块,它能对其输入X执行非线性变换;具体而言,FFN由两个线性变换组成且中间有一个ReLU激活函数:FFN(X)=ReLU(XW1+b1)W2+b2其中是可训练的参数矩阵,b1,b2是偏置向量。6.根据权利要求3所述的基于Transformer模型的局部信息融合的语音识别网络,其特征在于,所述解码器中,把解码器的真正输入Y0和最深层的编码器的输出X6作为LFMRS模块的输入来提取局部信息;
LMHCA模块由以下函数定义:LMHCA[MHA(Y
n
‑1),Y0,X6]=LMHCA(Q1,K1,V1,Q2,K2)LMHCA(Q1,K1,V1,Q2,K2)=Concat(head1,...,head
H
)W0Attention(Q1,K1,V1,Q2,K2)=Softmax(energy
i
+LFMRS
i
(Y0,X6))V1其中,head
i
表示LMHCA模块中第i个注意力头的输出,表示LMHCA模块中第i个注意力头的输出,是可训练...
【专利技术属性】
技术研发人员:陈嘉维,段志奎,于昕梅,阮锦标,高国智,王虎伟,严世泉,
申请(专利权)人:佛山科学技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。