【技术实现步骤摘要】
模型训练方法、语音唤醒方法、装置、设备及介质
[0001]本申请涉及但不限于语音
,尤其涉及一种模型训练方法、语音唤醒方法、装置、设备及存储介质。
技术介绍
[0002]随着人工智能和自然语言处理技术的发展,语音交互将会变得越来越流行。在智能硬件的语音交互场景中,用户需要通过特定的唤醒词来唤醒端侧设备。
[0003]为了提高唤醒的准确率、降低误唤醒的次数,目前常用的方法有:优化语音唤醒的模型结构,使用更加复杂和先进的网络结构,例如增加层数和宽度,加大模型的参数量来使得模型更好地拟合数据,从而提高唤醒率;使用模型融合的方法,使用多个模型来保证唤醒率,解码时,需要输入音频通过两个模型结果都大于阈值才可以唤醒;使用端上和云端的两级唤醒来召回漏召回的样例;通过融入其他声学的信息来辅助提升语音唤醒的效果。
[0004]但是上述方法通常存在端上模型的功耗会有所增加,需要部署多个服务,或者训练多个模型的问题。
技术实现思路
[0005]有鉴于此,本申请实施例至少提供一种模型训练方法、语音唤醒方法、装置、设备及介质。
[0006]本申请实施例的技术方案是这样实现的:
[0007]第一方面,本申请实施例提供一种模型训练方法,包括:
[0008]对获取的语音训练样本进行特征提取,得到所述语音训练样本的第一音频特征;利用所述第一音频特征,分别训练得到至少两个包括编码网络和解码网络的唤醒子模型;其中,至少两个所述编码网络的参数量不同,所有所述联合解码网络的模型结构相同且参数量均相 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:对获取的语音训练样本进行特征提取,得到所述语音训练样本的第一音频特征;利用所述第一音频特征,分别训练得到至少两个包括编码网络和解码网络的唤醒子模型;其中,至少两个所述编码网络的参数量不同,所有所述联合解码网络的模型结构相同且参数量均相同;利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型;其中,所述初始唤醒模型包括联合解码网络和所述至少两个唤醒子模型中的编码网络;所述联合解码网络的初始模型参数是基于所述至少两个唤醒子模型中解码网络的模型参数初始化的;所述语音唤醒模型用于识别用户音频数据以唤醒电子设备。2.根据权利要求1所述的方法,其特征在于,所述初始唤醒模型还包括嵌入层和门控网络,所述嵌入层用于生成所述第一音频特征对应的第一嵌入向量;所述门控网络用于基于所述第一嵌入向量从所述所述至少两个唤醒子模型的编码网络中选择目标编码网络;其中,在联合训练过程中,更新所述嵌入层、门控网络和所述联合解码网络的模型参数。3.根据权利要求1所述的方法,其特征在于,所述利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型,包括:确定每一所述唤醒子模型中所述编码网络的第一模型参数和所述解码网络的第二模型参数;对所述至少两个唤醒子模型中所述解码网络的第二模型参数求平均,得到第三模型参数作为所述联合解码网络的初始模型参数;在所述第一模型参数和所述第三模型参数的基础上,利用所述第一音频特征对所述初始唤醒模型进行联合训练,得到所述语音唤醒模型。4.根据权利要求2所述的方法,其特征在于,所述利用所述第一音频特征,对搭建的初始唤醒模型进行联合训练,得到语音唤醒模型,包括:通过所述嵌入层对所述第一音频特征进行特征映射,得到所述第一嵌入向量;将所述第一嵌入向量输入到所述门控网络和每一所述编码网络,分别得到每一所述编码网络对应的置信度和每一所述编码网络基于所述第一嵌入向量生成的编码特征;基于每一所述编码网络生成的编码特征与每一所述编码网络对应的置信度,确定输入所述联合解码网络的第一编码序列;基于所述联合解码网络的输出结果和所述第一音频特征的标签,确定学习损失;利用所述学习损失,对所述嵌入层、所述门控网络以及所述联合解码网络进行模型参数更新,直到达到收敛条件时得到所述语音唤醒模型。5.根据权利要求4所述的方法,其特征在于,所述基于每一所述编码网络生成的编码特征与每一所述编码网络对应的置信度,确定输入所述联合解码网络的第一编码序列,包括:对归一化后的每一所述置信度对应的所述编码网络生成的编码特征进行加权求和,确定输入所述联合解码网络的第一编码序列;或者,基于最高置信度对应的所述编码网络生成的编码特征,确定输入所述联合解码网络的第一编码序列。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
利用所述学习损失对加权求和的每一所述编码网络的第一模型参数进行微调,或者对所述最高置信度对应的所述编码网络的第一模型参数进行微调。7.根据权利要求4所述的方法,其特征在于,所述将所述第一嵌入向量输入到所述门控网络和每一所述编码网络,分别得到每一所述编码网络对应的置信度和每一所述编码网络基于所述第一嵌入向量生成的编码特征,包括:在所述门控网络中对所述第一嵌入向量进行概率预测,得到每一所述编码网络对应的置信度;在每一所述编码网络中对所述第一嵌入向量与所述第一音频特征进行拼接并编码,生成所述第一嵌...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:摩尔线程智能科技北京有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。