基于自注意力机制和记忆网络的语音识别方法及装置制造方法及图纸

技术编号：27940025 阅读：19 留言：0更新日期：2021-04-02 14:21

本申请公开了一种基于自注意力机制和记忆网络的语音识别方法及装置，涉及人工智能技术领域，可以解决目前在进行语音识别时，现有模型在计算复杂度和准确率上都有一定的局限性，导致语音识别效果较差且效率较低的问题。其中方法包括：依据自注意力机制和记忆网络LSTM更新RNN‑Transducer模型的编码器结构和解码器结构；提取目标语音的语音序列特征以及文本序列特征；利用更新后的RNN‑Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签。本申请适用于对语音的在线识别，例如可应用于对话机器人、在线教育、实时会议系统等场景。

全部详细技术资料下载

【技术实现步骤摘要】
基于自注意力机制和记忆网络的语音识别方法及装置
本申请涉及人工智能
，尤其涉及到一种基于自注意力机制和记忆网络的语音识别方法及装置。
技术介绍
最近几年，含有自注意力机制(Self-Attention)的语音识别模型越来越受到了人们的关注。相比于传统的循环神经网络模型(RNN)，自注意力机制模型具有可以高并行度训练、低延迟等优点。但是，对于实时语音识别模型来说，自注意力机制模型有一个非常有挑战性的问题是，随着语音长度的增长，自注意力机制模型的计算复杂度会同步地进行增长。为了解决这个问题，通常的做法是把自注意力的感受野限制在一个固定的窗长里面。这种做法可以保证模型的计算时效性，但是会一定程度影响模型的识别效果。同时，联结时序分类(ConnectionistTemporalClassification，CTC)是通常使用的用来训练端到端语音识别的时序分类算法。然而，CTC有一个非常明显的问题是，CTC是对于语音的每一帧进行识别，从而每一帧的识别都是条件独立的。所以，基于CTC准则训练的模型，达到很好的效果，通常需要一个语言模型配合。而RNN-Transducer(RNN-T)准则对CTC准则进行了一个补充，通常来说，RNN-Transducer由一个编码器(EncoderNetwork)、解码器(DecoderNetwork)、和一个联合网络(JointNetwork)组成。但是据了解，业界主流的RNN-Transducer模型的编码器和解码器结构还是传统的RNN模型结构，由于传统RNN模型结构存在收敛速度...

【技术保护点】
1.一种基于自注意力机制和记忆网络的语音识别方法，其特征在于，包括：/n依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构；/n提取目标语音的语音序列特征以及文本序列特征；/n利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签。/n

【技术特征摘要】
1.一种基于自注意力机制和记忆网络的语音识别方法，其特征在于，包括：
依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构；
提取目标语音的语音序列特征以及文本序列特征；
利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签。

2.根据权利要求1所述的方法，其特征在于，所述依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构，具体包括：
构建包含记忆自注意力模块和二维卷积模块的声学编码器，以及包含所述记忆自注意力模块和一维卷积模块的语言解码器，所述记忆自注意力模块包括加窗的自注意力机制网络和记忆网络LSTM；
将所述声学编码器和所述语言解码器更新至RNN-Transducer模型中。

3.根据权利要求1所述的方法，其特征在于，所述提取目标语音的语音序列特征以及文本序列特征，具体包括：
对当前时刻未解码的目标语音进行加窗分帧处理，并提取每帧目标语音的语音特征；
基于帧序号将所述语音特征整合为所述目标语音的语音序列特征；
提取当前时刻解码完成的目标语音的文本序列特征。

4.根据权利要求2所述的方法，其特征在于，所述利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征，确定所述目标语音对应的目标文本标签，具体包括：
利用所述声学编码器将所述语音序列特征转换为编码器隐变量，以及利用所述语言解码器将所述文本序列特征转换为解码器隐变量；
基于所述编码器隐变量和所述解码器隐变量确定所述目标语音对应的目标文本标签。

5.根据权利要求4所述的方法，其特征在于，所述利用所述声学编码器将所述语音序列特征转换为编码器隐变量，具体包括：
将所述语音序列特征输入所述声学编码器中的所述二维卷积模块，获取第一卷积特征；
依据所述第一卷积特征以及所述声学编码器中所述自注意力机制网络的加窗窗长确定原始声学特征，并根据所述原始声学特征计算自注意力机制表示；
利用所述声学编码器中的所述记忆网络LSTM以及所述原始声学特征确定隐藏层状态表示；
根据所述原始声学特征、所述自注意力机制表示以及所述隐藏层状态表示计算权重归一化结果；
...

【专利技术属性】
技术研发人员：罗剑，王健宗，程宁，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人