模型训练方法、语音唤醒方法、装置、设备及介质制造方法及图纸

技术编号:38625370 阅读:20 留言:0更新日期:2023-08-31 18:27
本申请实施例公开了一种模型训练方法、语音唤醒方法、装置、设备及介质,其中,模型训练方法包括:对获取的语音训练样本进行特征提取,得到语音训练样本的第一音频特征;利用第一音频特征,分别训练得到至少两个包括编码网络和解码网络的唤醒子模型;其中,至少两个编码网络的参数量不同,所有解码网络的模型结构相同且参数量均相同;利用第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型;其中,初始唤醒模型包括联合解码网络和至少两个唤醒子模型中的编码网络;联合解码网络的初始模型参数是基于至少两个唤醒子模型中解码网络的模型参数初始化的;语音唤醒模型用于识别用户音频数据以唤醒电子设备。用于识别用户音频数据以唤醒电子设备。用于识别用户音频数据以唤醒电子设备。

【技术实现步骤摘要】
模型训练方法、语音唤醒方法、装置、设备及介质


[0001]本申请涉及但不限于语音
,尤其涉及一种模型训练方法、语音唤醒方法、装置、设备及存储介质。

技术介绍

[0002]随着人工智能和自然语言处理技术的发展,语音交互将会变得越来越流行。在智能硬件的语音交互场景中,用户需要通过特定的唤醒词来唤醒端侧设备。
[0003]为了提高唤醒的准确率、降低误唤醒的次数,目前常用的方法有:优化语音唤醒的模型结构,使用更加复杂和先进的网络结构,例如增加层数和宽度,加大模型的参数量来使得模型更好地拟合数据,从而提高唤醒率;使用模型融合的方法,使用多个模型来保证唤醒率,解码时,需要输入音频通过两个模型结果都大于阈值才可以唤醒;使用端上和云端的两级唤醒来召回漏召回的样例;通过融入其他声学的信息来辅助提升语音唤醒的效果。
[0004]但是上述方法通常存在端上模型的功耗会有所增加,需要部署多个服务,或者训练多个模型的问题。

技术实现思路

[0005]有鉴于此,本申请实施例至少提供一种模型训练方法、语音唤醒方法、装置、设备及介质。
[0006]本申请实施例的技术方案是这样实现的:
[0007]第一方面,本申请实施例提供一种模型训练方法,包括:
[0008]对获取的语音训练样本进行特征提取,得到所述语音训练样本的第一音频特征;利用所述第一音频特征,分别训练得到至少两个包括编码网络和解码网络的唤醒子模型;其中,至少两个所述编码网络的参数量不同,所有所述联合解码网络的模型结构相同且参数量均相同;利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型;其中,所述初始唤醒模型包括联合解码网络和所述至少两个唤醒子模型中的编码网络;所述联合解码网络的初始模型参数是基于所述至少两个唤醒子模型中解码网络的模型参数初始化的;所述语音唤醒模型用于识别用户音频数据以唤醒电子设备。
[0009]第二方面,本申请实施例提供一种语音唤醒方法,所述方法包括:
[0010]获取对用户音频数据提取的第二音频特征;将所述第二音频特征输入已训练的语音唤醒模型中进行识别,得到识别结果;其中,所述语音唤醒模型是通过上述模型训练方法训练得到的;在所述识别结果所包含的唤醒词与预设唤醒词一致的情况下,基于所述唤醒词唤醒电子设备。
[0011]第三方面,本申请实施例提供一种模型训练装置,包括:
[0012]特征提取模块,用于对获取的语音训练样本进行特征提取,得到所述语音训练样本的第一音频特征;
[0013]单独训练模块,用于利用所述第一音频特征,分别训练得到至少两个包括编码网
络和解码网络的唤醒子模型;其中,至少两个所述编码网络的参数量不同,所有所述联合解码网络的模型结构相同且参数量均相同;
[0014]联合训练模块,用于利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型;其中,所述初始唤醒模型包括联合解码网络和所述至少两个唤醒子模型中的编码网络;所述联合解码网络的初始模型参数是基于所述至少两个唤醒子模型中解码网络的模型参数初始化的;所述语音唤醒模型用于识别用户音频数据以唤醒电子设备。
[0015]第四方面,本申请实施例提供一种语音唤醒装置,包括:
[0016]音频获取模块,用于获取对用户音频数据提取的第二音频特征;
[0017]音频识别模块,用于将所述第二音频特征输入已训练的语音唤醒模型中进行识别,得到识别结果;其中,所述语音唤醒模型是通过第一方面中任意一项模型训练方法训练得到的;
[0018]语音唤醒模块,用于在所述识别结果所包含的唤醒词与预设唤醒词一致的情况下,基于所述唤醒词唤醒电子设备。
[0019]第五方面,本申请实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面方法中的步骤;或者实现上述第二方面方法中的步骤。
[0020]第六方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面方法中的步骤;或者实现上述第二方面方法中的步骤。
[0021]在本申请实施例中,首先对语音训练样本进行特征提取得到对应的第一音频特征;然后利用第一音频特征对至少两个由解码网络和编码网络组成的唤醒子模型进行单独训练;再利用训练好的唤醒子模型搭建初始唤醒模型,并基于各唤醒子模型中解码网络的模型参数对初始唤醒模型中的联合解码网络进行初始化;最后利用第一音频特征对初始唤醒模型进行联合训练得到语音唤醒模型;如此,在初始唤醒模型中通过配置不同参数量的编码网络可以产生不同的计算能力和准确度,从而可以达到动态地选择不同的唤醒效果和对应的模型功耗。
[0022]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请的技术方案。
附图说明
[0023]此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
[0024]图1为本申请实施例提供的模型训练方法的可选的流程示意图;
[0025]图2为本申请实施例提供的模型训练方法的可选的流程示意图;
[0026]图3为本申请实施例提供的模型训练方法的可选的流程示意图;
[0027]图4为本申请实施例提供的语音唤醒方法的可选的流程示意图;
[0028]图5为本申请实施例提供的一种语音唤醒模型的系统框架;
[0029]图6为本申请实施例提供的唤醒子模型的结构示意图;
[0030]图7为本申请实施例提供的一种模型训练装置的组成结构示意图;
[0031]图8为本申请实施例提供的一种语音唤醒装置的组成结构示意图;
[0032]图9为本申请实施例提供的一种电子设备的硬件实体示意图。
具体实施方式
[0033]为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0034]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0035]所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
[0036]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
[0037]在对本申请实施例进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:对获取的语音训练样本进行特征提取,得到所述语音训练样本的第一音频特征;利用所述第一音频特征,分别训练得到至少两个包括编码网络和解码网络的唤醒子模型;其中,至少两个所述编码网络的参数量不同,所有所述联合解码网络的模型结构相同且参数量均相同;利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型;其中,所述初始唤醒模型包括联合解码网络和所述至少两个唤醒子模型中的编码网络;所述联合解码网络的初始模型参数是基于所述至少两个唤醒子模型中解码网络的模型参数初始化的;所述语音唤醒模型用于识别用户音频数据以唤醒电子设备。2.根据权利要求1所述的方法,其特征在于,所述初始唤醒模型还包括嵌入层和门控网络,所述嵌入层用于生成所述第一音频特征对应的第一嵌入向量;所述门控网络用于基于所述第一嵌入向量从所述所述至少两个唤醒子模型的编码网络中选择目标编码网络;其中,在联合训练过程中,更新所述嵌入层、门控网络和所述联合解码网络的模型参数。3.根据权利要求1所述的方法,其特征在于,所述利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型,包括:确定每一所述唤醒子模型中所述编码网络的第一模型参数和所述解码网络的第二模型参数;对所述至少两个唤醒子模型中所述解码网络的第二模型参数求平均,得到第三模型参数作为所述联合解码网络的初始模型参数;在所述第一模型参数和所述第三模型参数的基础上,利用所述第一音频特征对所述初始唤醒模型进行联合训练,得到所述语音唤醒模型。4.根据权利要求2所述的方法,其特征在于,所述利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型,包括:通过所述嵌入层对所述第一音频特征进行特征映射,得到所述第一嵌入向量;将所述第一嵌入向量输入到所述门控网络和每一所述编码网络,分别得到每一所述编码网络对应的置信度和每一所述编码网络基于所述第一嵌入向量生成的编码特征;基于每一所述编码网络生成的编码特征与每一所述编码网络对应的置信度,确定输入所述联合解码网络的第一编码序列;基于所述联合解码网络的输出结果和所述第一音频特征的标签,确定学习损失;利用所述学习损失,对所述嵌入层、所述门控网络以及所述联合解码网络进行模型参数更新,直到达到收敛条件时得到所述语音唤醒模型。5.根据权利要求4所述的方法,其特征在于,所述基于每一所述编码网络生成的编码特征与每一所述编码网络对应的置信度,确定输入所述联合解码网络的第一编码序列,包括:对归一化后的每一所述置信度对应的所述编码网络生成的编码特征进行加权求和,确定输入所述联合解码网络的第一编码序列;或者,基于最高置信度对应的所述编码网络生成的编码特征,确定输入所述联合解码网络的第一编码序列。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
利用所述学习损失对加权求和的每一所述编码网络的第一模型参数进行微调,或者对所述最高置信度对应的所述编码网络的第一模型参数进行微调。7.根据权利要求4所述的方法,其特征在于,所述将所述第一嵌入向量输入到所述门控网络和每一所述编码网络,分别得到每一所述编码网络对应的置信度和每一所述编码网络基于所述第一嵌入向量生成的编码特征,包括:在所述门控网络中对所述第一嵌入向量进行概率预测,得到每一所述编码网络对应的置信度;在每一所述编码网络中对所述第一嵌入向量与所述第一音频特征进行拼接并编码,生成所述第一嵌...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:摩尔线程智能科技北京有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1