基于模型压缩的语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:32547032 阅读:9 留言:0更新日期:2022-03-05 11:45
本申请涉及一种基于模型压缩的语音识别方法,所述方法包括:获取训练语音数据,将训练语音数据输入至由编码器、预测网络和联合网络构建的语音识别模型中,得到初始识别结果;将初始识别结果与预设的标准结果进行比对,并根据得到的比对结果对语音识别模型进行优化,得到标准语音识别模型;对标准语音识别模型进行模型压缩处理,得到标准压缩模型;获取待识别语音,将待识别语音输入至标准压缩模型中,得到语音识别结果。此外,本申请还涉及一种基于模型压缩的语音识别方法、装置、设备及存储介质。本申请可解决语音识别的准确度不高的问题。题。题。

【技术实现步骤摘要】
基于模型压缩的语音识别方法、装置、设备及存储介质


[0001]本申请涉及语音处理领域,尤其涉及一种基于模型压缩的语音识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]近年来,随着机器学习技术的不断发展,越来越多的领域开始使用神经网络模型来解决想要解决的技术问题,例如语音识别和图像识别等。在语音识别场景下,用户通常会使用手机等移动终端进行离线的语音识别,以快速获取语音识别结果。因此需要将一个训练好的语音识别模型运行在芯片上,进而实现利用移动终端进行语音识别。
[0003]现有的利用移动终端进行语音识别的技术主要问题在于一方面训练的语音识别模型的语音识别的准确度不高,另一方面在于将训练好的语音识别模型直接运行在芯片上时,由于芯片运算能力优先,可能出现资源不足等问题,进而降低语音识别的准确性。因此亟待提出一种准确度更高的语音识别方法。

技术实现思路

[0004]本申请提供了一种基于模型压缩的语音识别方法、装置、电子设备及存储介质,以解决语音识别的准确度不高的问题。
[0005]第一方面,本申请提供了一种基于模型压缩的语音识别方法,所述方法包括:
[0006]获取训练语音数据,将所述训练语音数据输入至由编码器、预测网络和联合网络构建的语音识别模型中,得到初始识别结果;
[0007]将所述初始识别结果与预设的标准结果进行比对,并根据得到的比对结果对所述语音识别模型进行优化,得到标准语音识别模型;
[0008]对所述标准语音识别模型进行模型压缩处理,得到标准压缩模型;
[0009]获取待识别语音,将所述待识别语音输入至所述标准压缩模型中,得到语音识别结果。
[0010]详细地,所述将所述训练语音数据输入至由编码器、预测网络和联合网络构建的语音识别模型中,得到初始识别结果,包括:
[0011]将所述训练语音数据输入至所述语音识别模型中的编码器中,得到训练声学表示;
[0012]获取预设的非空白标签,将所述非空白标签输入所述语音识别模型中的预测网络中,得到上下文向量;
[0013]将所述训练声学表示和所述上下文向量作为所述语音识别模型中的联合网络的输入,得到联合逻辑向量;
[0014]利用所述全连接层中的激活函数对所述联合逻辑向量进行激活处理,得到初始识别结果。
[0015]详细地,所述将所述训练语音数据输入至所述语音识别模型中的编码器中,得到
训练声学表示,包括:
[0016]通过所述编码器中的输入门计算所述训练语音数据的状态值;
[0017]通过所述编码器中的遗忘门计算所述训练语音数据的激活值;
[0018]根据所述编码器中的状态值和所述激活值计算所述训练语音数据的状态更新值;
[0019]利用所述编码器中的输出门计算所述状态更新值对应的训练声学表示。
[0020]详细地,所述对所述标准语音识别模型进行模型压缩处理,得到标准压缩模型,包括:
[0021]对所述标准语音识别模型中结构相同的层进行参数共享,得到初始压缩模型;
[0022]基于所述训练语音数据及所述训练语音数据对应的训练识别结果更新所述初始压缩模型中共享的参数,得到标准压缩模型。
[0023]详细地,所述对所述标准语音识别模型中结构相同的层进行参数共享,得到初始压缩模型,包括:
[0024]将所述标准语音识别模型中结构相同的多个层中的任意一个层确定为参照层,将多个层中除去所述参照层后的其它层确定为共享层;
[0025]将所述参考层的参数作为初始参数赋值给所述共享层,得到初始压缩模型。
[0026]详细地,所述将所述初始识别结果与预设的标准结果进行比对,并根据得到的比对结果对所述语音识别模型进行优化,包括:
[0027]将所述初始识别结果与预设的标准结果进行比对;
[0028]当所述初始识别结果与所述标准结果一致时,将所述语音识别模型作为所述标准语音识别模型;
[0029]当所述初始识别结果与所述标准结果不一致时,对所述语音识别模型进行模型参数调整,并返回获取训练语音数据,将所述训练语音数据输入至由编码器、预测网络和联合网络构建的语音识别模型中,得到初始识别结果的步骤。详细地,所述获取训练语音数据之后,所述方法还包括:
[0030]将所述编码器和所述预测网络分别连接在所述联合网络的左端和右端,得到初始模块;
[0031]在所述初始模块后添加全连接层,得到语音识别模型。
[0032]第二方面,本申请提供了一种基于模型压缩的语音识别装置,所述装置包括:
[0033]初始识别模块,用于获取训练语音数据,将所述训练语音数据输入至由编码器、预测网络和联合网络构建的语音识别模型中,得到初始识别结果;
[0034]模型优化模块,用于将所述初始识别结果与预设的标准结果进行比对,并根据得到的比对结果对所述语音识别模型进行优化,得到标准语音识别模型;
[0035]模型压缩模块,用于对所述标准语音识别模型进行模型压缩处理,得到标准压缩模型;
[0036]语音识别模块,用于获取待识别语音,将所述待识别语音输入至所述标准压缩模型中,得到语音识别结果。
[0037]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
[0038]存储器,用于存放计算机程序;
[0039]处理器,用于执行存储器上所存放的程序时,实现第一方面任一项实施例所述的基于模型压缩的语音识别方法的步骤。
[0040]第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于模型压缩的语音识别方法的步骤。
[0041]本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
[0042]本专利技术实施例通过利用由编码器、预测网络和联合网络构建的语音识别模型对训练语音数据进行语音识别,得到初始识别结果,所述语音识别模型中的联合网络可以结合所述编码器和所述预测网络的输出进行联合运算,保证语音识别的准确度。将所述初始识别结果与预设的标准结果进行比对,根据得到的比对结果对所述语音识别模型进行优化,得到标准语音识别模型,进一步保证了标准语音识别模型的准确度。对所述标准语音识别模型进行模型压缩处理,得到标准压缩模型,所述模型压缩处理可以使得模型可以在保证内存和算力的同时进行压缩,避免因为压缩造成语音识别模型的语音识别能力下降,即使运行在芯片上,仍能保持语音识别的准确性。因此标准压缩模型对待识别语音的语音识别的准确度较高。因此本专利技术提出的基于模型压缩的语音识别方法、装置、电子设备及计算机可读存储介质,可以解决语音识别的准确度不高的问题。
附图说明
[0043]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模型压缩的语音识别方法,其特征在于,所述方法包括:获取训练语音数据,将所述训练语音数据输入至由编码器、预测网络和联合网络构建的语音识别模型中,得到初始识别结果;将所述初始识别结果与预设的标准结果进行比对,并根据得到的比对结果对所述语音识别模型进行优化,得到标准语音识别模型;对所述标准语音识别模型进行模型压缩处理,得到标准压缩模型;获取待识别语音,将所述待识别语音输入至所述标准压缩模型中,得到语音识别结果。2.根据权利要求1所述的基于模型压缩的语音识别方法,其特征在于,所述将所述训练语音数据输入至由编码器、预测网络和联合网络构建的语音识别模型中,得到初始识别结果,包括:将所述训练语音数据输入至所述语音识别模型中的编码器中,得到训练声学表示;获取预设的非空白标签,将所述非空白标签输入所述语音识别模型中的预测网络中,得到上下文向量;将所述训练声学表示和所述上下文向量作为所述语音识别模型中的联合网络的输入,得到联合逻辑向量;利用所述全连接层中的激活函数对所述联合逻辑向量进行激活处理,得到初始识别结果。3.根据权利要求2所述的基于模型压缩的语音识别方法,其特征在于,所述将所述训练语音数据输入至所述语音识别模型中的编码器中,得到训练声学表示,包括:通过所述编码器中的输入门计算所述训练语音数据的状态值;通过所述编码器中的遗忘门计算所述训练语音数据的激活值;根据所述编码器中的状态值和所述激活值计算所述训练语音数据的状态更新值;利用所述编码器中的输出门计算所述状态更新值对应的训练声学表示。4.根据权利要求1所述的基于模型压缩的语音识别方法,其特征在于,所述对所述标准语音识别模型进行模型压缩处理,得到标准压缩模型,包括:对所述标准语音识别模型中结构相同的层进行参数共享,得到初始压缩模型;基于所述训练语音数据及所述训练语音数据对应的训练识别结果更新所述初始压缩模型中共享的参数,得到标准压缩模型。5.根据权利要求4所述的基于模型压缩的语音识别方法,其特征在于,所述对所述标准语音识别模型中结构相同的层进行参数共享,得到初始压缩模型,包括:将所述标准语音识别模型中结构相同的多个层中的任意一个层确定为参照层,将多个层中除...

【专利技术属性】
技术研发人员:黄石磊陈诚吕少岭廖晨
申请(专利权)人:深圳市北科瑞声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1