【技术实现步骤摘要】
一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统
[0001]本专利技术属于语音识别领域,特别涉及一种编码器及采用该编码器的基于局部生成 式注意力机制的端到端语音识别系统。
技术介绍
[0002]语音识别(Automatic Speech Recognition,ASR)是指将语音信号转换为文本内容, 是语音交互技术中的一个关键环节。近年来,端到端(End
‑
to
‑
End,E2E)自动语音识别 (Automatic Speech Recognition,ASR)由于其简单的模型结构以及简单的训练流程,在 ASR领域得到了广泛的研究。目前已有的端到端语音识别方法中,连接时序分类 (Connectionist Temporal Classification,CTC)和递归神经网络变换器(Recurrent NeuralNetwork Transducer,RNN
‑
T)由于参数量大,识别准确率低等原因,在离线识别这一 领域已经逐步被基于注意力机制的编码
【技术保护点】
【技术特征摘要】
1.一种编码器,其特征在于,该编码器中设有多头点积注意力子模块、生成式多头注意力子模块、局部生成式多头注意力子模块或者混合注意力子模块中的一种;所述局部生成式多头注意力子模块表达为:B=Softmax(σ
R
(XW1)W2)V=XW3LDSA(X)=YW
O
其中,为输入语音特征序列,其中T为语音序列的长度(帧数),d为每一帧的特征维度;和是神经网络中的可学习权重;σ
R
是ReLU激活函数;B为预测的注意力权重;V为输入语音特征在特征空间中的投影;Y为输出的经过上下文相关性建模的语音特征;所述混合注意力子模块表达式为:X
′
=LDSA(X)Y=SA(X
′
)LDSA为上述局部生成式注意力子模块;SA为经典的自注意力...
【专利技术属性】
技术研发人员:张晓雷,徐梦龙,姚嘉迪,
申请(专利权)人:西北工业大学深圳研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。