基于自注意力机制和记忆网络的语音识别方法及装置制造方法及图纸

技术编号:27940025 阅读:19 留言:0更新日期:2021-04-02 14:21
本申请公开了一种基于自注意力机制和记忆网络的语音识别方法及装置,涉及人工智能技术领域,可以解决目前在进行语音识别时,现有模型在计算复杂度和准确率上都有一定的局限性,导致语音识别效果较差且效率较低的问题。其中方法包括:依据自注意力机制和记忆网络LSTM更新RNN‑Transducer模型的编码器结构和解码器结构;提取目标语音的语音序列特征以及文本序列特征;利用更新后的RNN‑Transducer模型基于所述语音序列特征和所述文本序列特征,确定所述目标语音对应的目标文本标签。本申请适用于对语音的在线识别,例如可应用于对话机器人、在线教育、实时会议系统等场景。

【技术实现步骤摘要】
基于自注意力机制和记忆网络的语音识别方法及装置
本申请涉及人工智能
,尤其涉及到一种基于自注意力机制和记忆网络的语音识别方法及装置。
技术介绍
最近几年,含有自注意力机制(Self-Attention)的语音识别模型越来越受到了人们的关注。相比于传统的循环神经网络模型(RNN),自注意力机制模型具有可以高并行度训练、低延迟等优点。但是,对于实时语音识别模型来说,自注意力机制模型有一个非常有挑战性的问题是,随着语音长度的增长,自注意力机制模型的计算复杂度会同步地进行增长。为了解决这个问题,通常的做法是把自注意力的感受野限制在一个固定的窗长里面。这种做法可以保证模型的计算时效性,但是会一定程度影响模型的识别效果。同时,联结时序分类(ConnectionistTemporalClassification,CTC)是通常使用的用来训练端到端语音识别的时序分类算法。然而,CTC有一个非常明显的问题是,CTC是对于语音的每一帧进行识别,从而每一帧的识别都是条件独立的。所以,基于CTC准则训练的模型,达到很好的效果,通常需要一个语言模型配合。而RNN-Transducer(RNN-T)准则对CTC准则进行了一个补充,通常来说,RNN-Transducer由一个编码器(EncoderNetwork)、解码器(DecoderNetwork)、和一个联合网络(JointNetwork)组成。但是据了解,业界主流的RNN-Transducer模型的编码器和解码器结构还是传统的RNN模型结构,由于传统RNN模型结构存在收敛速度慢、难以有效进行并行训练的问题,导致语音识别准确率不高,且效率较低。总而言之,传统的自注意力机制模型、RNN-Transducer模型在计算复杂度和准确率上都有一定的局限性,导致语音识别效果较差且效率较低。
技术实现思路
有鉴于此,本申请提供了一种基于自注意力机制和记忆网络的语音识别方法及装置,主要解决目前在进行语音识别时,现有模型在计算复杂度和准确率上都有一定的局限性,导致语音识别效果较差且效率较低的问题。根据本申请的一个方面,提供了一种基于自注意力机制和记忆网络的语音识别方法,该方法包括:提取目标语音的语音序列特征以及文本序列特征;依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构;利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征,确定所述目标语音对应的目标文本标签。根据本申请的另一个方面,提供了一种基于自注意力机制和记忆网络的语音识别装置,该装置包括:提取模块,用于提取目标语音的语音序列特征以及文本序列特征;更新模块,用于依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构;确定模块,用于利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征,确定所述目标语音对应的目标文本标签。根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于自注意力机制和记忆网络的语音识别方法。根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于自注意力机制和记忆网络的语音识别方法。借由上述技术方案,本申请提供的一种基于自注意力机制和记忆网络的语音识别方法、装置及计算机设备,与利用传统的RNN-Transducer语音识别模型进行语音识别的方式相比,本申请可在RNN-Transducer语音识别模型中引入自注意力机制和记忆网络LSTM,即利用自注意力机制和记忆网络重建RNN-Transducer语音识别模型的编码器结构和解码器结构。在提取出目标语音的语音序列特征以及文本序列特征后,进一步利用更新后的声学编码器模块计算得到语音序列特征对应的编码器隐变量,利用更新后的语言解码器模块计算得到文本序列特征对应的解码器隐变量,最后利用联合网络模块基于编码器隐变量和解码器隐变量确定得到目标语音对应的目标文本标签。在本申请中,通过在RNN-Transducer模型中添加自注意力机制,使得RNN-Transducer模型可以并行计算,故可加快语音识别模型的训练和推理速度,增大语音识别的准确率。同时,由于传统的加窗自注意力机制会失去模型对长时信息的建模能力,故本申请在RNN-Transducer模型中同时加入记忆网络LSTM,将历史的长时信息保留在记忆网络LSTM中,从而可进一步提高模型的建模能力和识别效果。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:图1示出了本申请实施例提供的一种基于自注意力机制和记忆网络的语音识别方法的流程示意图;图2示出了本申请实施例提供的另一种基于自注意力机制和记忆网络的语音识别方法的流程示意图;图3示出了本申请实施例提供的一种基于自注意力机制和记忆网络的语音识别模型的结构示意图;图4示出了本申请实施例提供的一种基于自注意力机制和记忆网络的语音识别装置的结构示意图;图5示出了本申请实施例提供的另一种基于自注意力机制和记忆网络的语音识别装置的结构示意图。具体实施方式下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。针对目前在进行语音识别时,现有模型在计算复杂度和准确率上都有一定的局限性,导致语音识别效果较差且效率较低的问题,本申请实施例提供了一种基于自注意力机制和记忆网络的语音识别方法,如图1所示,该方法包括:101、依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构。在本申请中,通过将自注意力机制与RNN-Transducer模型相结合,即在RNN-Transducer模型的编码器和解码器结构中引入自注意力机制,利用自注意力机制使得RNN-Transducer模型可以并行计算,从而可加快模型的训练和推理速度,以及识别的准确率。同时,由于传统的加窗自注意力机制会失去模型对长时信息的建模能力,本申请还可在自注意力机制中加入记忆网络LSTM,将历史的长时信息保留在记忆网络LSTM中,从而方便利用历史的长时信息辅助进行当前时刻语音的文本标签识别,进一步提高模型的建模能力和识别效果。对于本申请的执行主体可为用于实时确定目标语音对应文本标签的语音识别系统,在语音识别系统中配置有基于自注意力机制和记忆网络改进后的语音识别模型(RNN-Transducer模型),利用RNN-Transducer模型中的声学编码器和语言解码器联合确定目标语音在当前时刻下的目标文本标签。102、本文档来自技高网
...

【技术保护点】
1.一种基于自注意力机制和记忆网络的语音识别方法,其特征在于,包括:/n依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构;/n提取目标语音的语音序列特征以及文本序列特征;/n利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征,确定所述目标语音对应的目标文本标签。/n

【技术特征摘要】
1.一种基于自注意力机制和记忆网络的语音识别方法,其特征在于,包括:
依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构;
提取目标语音的语音序列特征以及文本序列特征;
利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征,确定所述目标语音对应的目标文本标签。


2.根据权利要求1所述的方法,其特征在于,所述依据自注意力机制和记忆网络LSTM更新RNN-Transducer模型的编码器结构和解码器结构,具体包括:
构建包含记忆自注意力模块和二维卷积模块的声学编码器,以及包含所述记忆自注意力模块和一维卷积模块的语言解码器,所述记忆自注意力模块包括加窗的自注意力机制网络和记忆网络LSTM;
将所述声学编码器和所述语言解码器更新至RNN-Transducer模型中。


3.根据权利要求1所述的方法,其特征在于,所述提取目标语音的语音序列特征以及文本序列特征,具体包括:
对当前时刻未解码的目标语音进行加窗分帧处理,并提取每帧目标语音的语音特征;
基于帧序号将所述语音特征整合为所述目标语音的语音序列特征;
提取当前时刻解码完成的目标语音的文本序列特征。


4.根据权利要求2所述的方法,其特征在于,所述利用更新后的RNN-Transducer模型基于所述语音序列特征和所述文本序列特征,确定所述目标语音对应的目标文本标签,具体包括:
利用所述声学编码器将所述语音序列特征转换为编码器隐变量,以及利用所述语言解码器将所述文本序列特征转换为解码器隐变量;
基于所述编码器隐变量和所述解码器隐变量确定所述目标语音对应的目标文本标签。


5.根据权利要求4所述的方法,其特征在于,所述利用所述声学编码器将所述语音序列特征转换为编码器隐变量,具体包括:
将所述语音序列特征输入所述声学编码器中的所述二维卷积模块,获取第一卷积特征;
依据所述第一卷积特征以及所述声学编码器中所述自注意力机制网络的加窗窗长确定原始声学特征,并根据所述原始声学特征计算自注意力机制表示;
利用所述声学编码器中的所述记忆网络LSTM以及所述原始声学特征确定隐藏层状态表示;
根据所述原始声学特征、所述自注意力机制表示以及所述隐藏层状态表示计算权重归一化结果;
...

【专利技术属性】
技术研发人员:罗剑王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1