一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统技术方案

技术编号:30085121 阅读:22 留言:0更新日期:2021-09-18 08:44
本发明专利技术为一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统,本发明专利技术属于端到端语音识别技术,用低复杂度的生成式注意力计算代替点积式的注意力机制,减少了计算复杂度,同时提高了语音识别的正确率;所提出一种基于DSA的语音识别模型来减少计算复杂度。我们进一步提出了局部DSA,将DSA的注意范围限制在当前语音帧周围的若干帧之内。本发明专利技术将LDSA与SA结合起来让模型具有同时提取局部和全局信息的能力。在Ai

【技术实现步骤摘要】
一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统


[0001]本专利技术属于语音识别领域,特别涉及一种编码器及采用该编码器的基于局部生成 式注意力机制的端到端语音识别系统。

技术介绍

[0002]语音识别(Automatic Speech Recognition,ASR)是指将语音信号转换为文本内容, 是语音交互技术中的一个关键环节。近年来,端到端(End

to

End,E2E)自动语音识别 (Automatic Speech Recognition,ASR)由于其简单的模型结构以及简单的训练流程,在 ASR领域得到了广泛的研究。目前已有的端到端语音识别方法中,连接时序分类 (Connectionist Temporal Classification,CTC)和递归神经网络变换器(Recurrent NeuralNetwork Transducer,RNN

T)由于参数量大,识别准确率低等原因,在离线识别这一 领域已经逐步被基于注意力机制的编码
...

【技术保护点】

【技术特征摘要】
1.一种编码器,其特征在于,该编码器中设有多头点积注意力子模块、生成式多头注意力子模块、局部生成式多头注意力子模块或者混合注意力子模块中的一种;所述局部生成式多头注意力子模块表达为:B=Softmax(σ
R
(XW1)W2)V=XW3LDSA(X)=YW
O
其中,为输入语音特征序列,其中T为语音序列的长度(帧数),d为每一帧的特征维度;和是神经网络中的可学习权重;σ
R
是ReLU激活函数;B为预测的注意力权重;V为输入语音特征在特征空间中的投影;Y为输出的经过上下文相关性建模的语音特征;所述混合注意力子模块表达式为:X

=LDSA(X)Y=SA(X

)LDSA为上述局部生成式注意力子模块;SA为经典的自注意力...

【专利技术属性】
技术研发人员:张晓雷徐梦龙姚嘉迪
申请(专利权)人:西北工业大学深圳研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1