语音识别、模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:29616845 阅读:29 留言:0更新日期:2021-08-10 18:35
本发明专利技术提供一种语音识别、模型训练方法、装置、电子设备和存储介质,其中语音识别方法包括:确定待识别的语音数据;将所述待识别的语音数据输入至压缩语音识别模型,得到所述压缩语音识别模型输出的语音识别结果;其中,所述压缩语音识别模型是基于样本语音数据及其样本语音识别结果训练得到的;所述压缩语音识别模型中结构相同的层之间共享参数。本发明专利技术基于样本语音数据及其样本语音识别结果训练压缩语音识别模型,并使压缩语音识别模型中结构相同的层之间共享参数,可以在运算量保持不变的情况下大幅降低模型参数量,使得压缩语音识别模型可以满足低内存、高算力的应用场景需求,并确保压缩语音识别模型的语音识别效果。

【技术实现步骤摘要】
语音识别、模型训练方法、装置、电子设备和存储介质
本专利技术涉及机器学习
,尤其涉及一种语音识别、模型训练方法、装置、电子设备和存储介质。
技术介绍
随着机器学习技术的不断发展,越来越多的领域开始使用神经网络模型进行前向推理,例如语音识别、语音唤醒、图像识别等。在语音识别场景下,用户通常会使用智能手机等移动终端进行离线的语音识别,以快速获取语音识别结果。然而,上述移动终端中采用的芯片,例如嵌入式神经网络处理器(Neural-networkProcessingUnits,NPU)芯片,尽管算力强大,但存在内存限制,而语音识别模型由于处理逻辑较为复杂,导致语音识别模型通常较大。因此,若需要在NPU芯片上运行语音识别模型,需要对语音识别模型进行压缩。目前,主流的神经网络模型压缩方法主要包括模型剪枝与量化。然而,模型剪枝与量化会同步降低模型的参数量与运算量,在上述低内存、高算力的运行环境中,同步降低运算量会造成算力的浪费,降低语音识别的准确性。另外,过于精细的模型剪枝操作使得语音识别模型的实际部署存在限制,可适用范围受限。
技术实现思路
本专利技术提供一种语音识别、模型训练方法、装置、电子设备和存储介质,用以解决现有技术中同步降低运算量造成语音识别准确性下降以及可适用范围受限的缺陷。本专利技术提供一种语音识别方法,包括:确定待识别的语音数据;将所述待识别的语音数据输入至压缩语音识别模型,得到所述压缩语音识别模型输出的语音识别结果;其中,所述压缩语音识别模型是基于样本语音数据及其样本语音识别结果训练得到的;所述压缩语音识别模型中结构相同的层之间共享参数。根据本专利技术提供一种的语音识别方法,所述压缩语音识别模型是基于如下步骤训练得到的:基于样本语音数据及其样本语音识别结果,预训练初始模型,得到原始语音识别模型;对所述原始语音识别模型中结构相同的层进行参数共享,得到初始压缩模型;基于样本语音数据及其样本语音识别结果,更新所述初始压缩模型中的共享参数,得到所述压缩语音识别模型。根据本专利技术提供的一种语音识别方法,所述对所述原始语音识别模型中结构相同的层进行参数共享,得到初始压缩模型,包括:将所述原始语音识别模型中结构相同的多个层中的任一层的参数作为初始参数赋值给所述多个层中的其他层,得到所述初始压缩模型。根据本专利技术提供的一种语音识别方法,所述压缩语音识别模型的损失函数包括识别结果损失函数和共享层差异损失函数;所述识别结果损失函数用于表示所述压缩语音识别模型对所述样本语音数据进行语音识别得到的输出结果与所述样本语音数据的样本语音识别结果间的差异;所述共享层差异损失函数表示所述压缩语音识别模型中任一共享层输出的实际特征向量与所述原始语音识别模型中对应层输出的目标特征向量间的差异;其中,共享层是指结构相同的多个层中共享所述多个层中任一层参数的其他层。根据本专利技术提供的一种语音识别方法,所述共享层差异损失函数是将所述压缩语音识别模型中每一共享层的特征距离损失进行加权求和后得到的;任一共享层的特征距离损失是所述压缩语音识别模型中所述任一共享层输出的实际特征向量与所述原始语音识别模型中对应层输出的目标特征向量间的向量距离。本专利技术还提供一种模型训练方法,包括:确定原始神经网络模型的结构;其中,所述原始神经网络模型中存在结构相同的层;基于样本数据及其样本标注结果,预训练所述原始神经网络模型;基于所述样本数据及其样本标注结果,更新所述原始神经网络模型中各层的参数,得到压缩神经网络模型;其中,在更新参数时,保持结构相同的层的参数相同,使得所述压缩神经网络模型中结构相同的层之间共享参数。本专利技术还提供一种语音识别装置,包括:语音数据确定单元,用于确定待识别的语音数据;语音识别单元,用于将所述待识别的语音数据输入至压缩语音识别模型,得到所述压缩语音识别模型输出的语音识别结果;其中,所述压缩语音识别模型是基于样本语音数据及其样本语音识别结果训练得到的;所述压缩语音识别模型中结构相同的层之间共享参数。本专利技术还提供一种模型训练装置,包括:模型结构确定单元,用于确定原始神经网络模型的结构;其中,所述原始神经网络模型中存在结构相同的层;预训练单元,用于基于样本数据及其样本标注结果,预训练所述原始神经网络模型;压缩训练单元,用于基于所述样本数据及其样本标注结果,更新所述原始神经网络模型中各层的参数,得到压缩神经网络模型;其中,在更新参数时,保持结构相同的层的参数相同,使得所述压缩神经网络模型中结构相同的层之间共享参数。本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音识别方法或模型训练方法的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音识别方法或模型训练方法的步骤。本专利技术提供的语音识别、模型训练方法、装置、电子设备和存储介质,基于样本语音数据及其样本语音识别结果训练压缩语音识别模型,并使压缩语音识别模型中结构相同的层之间共享参数,可以在运算量保持不变的情况下大幅降低模型参数量,使得压缩语音识别模型可以满足低内存、高算力的应用场景需求,并确保压缩语音识别模型的语音识别效果。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术提供的语音识别方法的流程示意图;图2为本专利技术提供的压缩语音识别模型训练方法的流程示意图;图3为本专利技术提供的特征距离损失的示意图;图4为本专利技术提供的模型训练方法的流程示意图;图5为本专利技术提供的语音识别装置的结构示意图;图6为本专利技术提供的模型训练装置的结构示意图;图7为本专利技术提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。随着机器学习技术的不断发展,越来越多的领域开始使用神经网络模型进行前向推理。例如,在语音识别场景下,用户通常会使用智能手机等移动终端进行离线的语音识别,以快速获取语音识别结果。然而,上述移动终端中采用的芯片,例如嵌入式神经网络处理器(Neural-networkProcessingUnits,NPU)芯片,尽管算力强大,但存在内存限制,因此对终端上运行的语音识别模本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n确定待识别的语音数据;/n将所述待识别的语音数据输入至压缩语音识别模型,得到所述压缩语音识别模型输出的语音识别结果;/n其中,所述压缩语音识别模型是基于样本语音数据及其样本语音识别结果训练得到的;所述压缩语音识别模型中结构相同的层之间共享参数。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
确定待识别的语音数据;
将所述待识别的语音数据输入至压缩语音识别模型,得到所述压缩语音识别模型输出的语音识别结果;
其中,所述压缩语音识别模型是基于样本语音数据及其样本语音识别结果训练得到的;所述压缩语音识别模型中结构相同的层之间共享参数。


2.根据权利要求1所述的语音识别方法,其特征在于,所述压缩语音识别模型是基于如下步骤训练得到的:
基于样本语音数据及其样本语音识别结果,预训练初始模型,得到原始语音识别模型;
对所述原始语音识别模型中结构相同的层进行参数共享,得到初始压缩模型;
基于样本语音数据及其样本语音识别结果,更新所述初始压缩模型中的共享参数,得到所述压缩语音识别模型。


3.根据权利要求2所述的语音识别方法,其特征在于,所述对所述原始语音识别模型中结构相同的层进行参数共享,得到初始压缩模型,包括:
将所述原始语音识别模型中结构相同的多个层中的任一层的参数作为初始参数赋值给所述多个层中的其他层,得到所述初始压缩模型。


4.根据权利要求2所述的语音识别方法,其特征在于,所述压缩语音识别模型的损失函数包括识别结果损失函数和共享层差异损失函数;
所述识别结果损失函数用于表示所述压缩语音识别模型对所述样本语音数据进行语音识别得到的输出结果与所述样本语音数据的样本语音识别结果间的差异;
所述共享层差异损失函数表示所述压缩语音识别模型中任一共享层输出的实际特征向量与所述原始语音识别模型中对应层输出的目标特征向量间的差异;其中,共享层是指结构相同的多个层中共享所述多个层中任一层参数的其他层。


5.根据权利要求4所述的语音识别方法,其特征在于,所述共享层差异损失函数是将所述压缩语音识别模型中每一共享层的特征距离损失进行加权求和后得到的;
任一共享层的特征距离损失是所述压缩语音识别模型中所述任一共享层输出的实际特征向量与所述原始语音识别模型...

【专利技术属性】
技术研发人员:吴华鑫
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1