本申请涉及一种基于持续学习模型的语音唤醒方法、装置及存储介质。所述方法包括:基于轻量级深度残差卷积网络构建教师模型和学生模型,并将教师模型和学生模型组装为持续学习模型;获取语音样本数据;将语音样本数据作为训练样本输入所述持续学习模型中进行训练;采用训练好的持续学习模型对目标语音进行唤醒。本申请能提升预测精准性和唤醒效率。特别是在模型训练过程中,教师模型与学生模型融合的训练方式,结合蒸馏损失、特征图损失与交叉熵损失,使持续学习模型得以优化,使学生模型负责学习新知识,教师模型负责引导学生模型不过度学习新知识,通过减小旧知识与新知识之间分布差异,实现了新知识的学习以及旧知识的保留。实现了新知识的学习以及旧知识的保留。实现了新知识的学习以及旧知识的保留。
【技术实现步骤摘要】
一种基于持续学习模型的语音唤醒方法、装置及存储介质
[0001]本申请涉及深度学习及语音唤醒
,更为具体来说,本申请涉及一种基于持续学习模型的语音唤醒方法、装置及存储介质。
技术介绍
[0002]随着人机交互概念的兴起,语音唤醒技术的应用越来越广泛。作为语音交互产品的第一步,影响人机交互体验,是目前企业的研究热点之一。例如,企业为产品设定唤醒词后,产品根据用户说出的关键词来判断是否进入问答服务。
[0003]随着深度学习的兴起,越来越多的企业开始在产品中部署端到端的深度学习语音唤醒模型,现有技术中存在两种模型的学习方法。第一类是将特殊环境中的唤醒词与非唤醒词语音数据加入到原始语音数据中进行重新训练,这种方法的优点是模型整体精度高,但是每次重新训练所需时间较长,且所有训练数据需完整保存,存储资源消耗大。第二类是使用现有模型对特殊环境中的唤醒词与非唤醒词进行微调,这种方法的优点是训练时间短,且无需使用原始语音数据。然而,语音模型的微调容易造成知识遗忘灾难,即模型过度学习新知识而遗忘了旧知识,因此微调模型在新数据上学习精度高,但是在原始数据中学习的精度会大幅下降。
技术实现思路
[0004]基于上述技术问题,本专利技术旨在基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型构建持续学习模型,以提升模型的持续学习能力,进而在利用训练好的持续学习模型进行语音唤醒的相关应用时能提升预测精准性和唤醒效率。
[0005]本专利技术第一方面提供了一种基于持续学习模型的语音唤醒方法,所述方法包括:
[0006]基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
[0007]获取语音样本数据;
[0008]将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
[0009]采用训练好的持续学习模型对目标语音进行唤醒。
[0010]在本专利技术的一些实施例中,基于轻量级深度残差卷积网络构建的教师模型和学生模型均依次序配置有1层第一全连接层、5层残差卷积层、2层第二全连接层,1层特征图层和1层概率层,各层依所述次序堆叠排放。
[0011]在本专利技术的一些实施例中,每层所述残差卷积层均由两层前馈网络和介于两层前馈网络中间的门控因果扩展卷积构成,所述两层前馈网络和所述门控因果扩展卷积通过残差连接的方式连接。
[0012]在本专利技术的一些实施例中,所述语音样本数据包括代表过去知识的第一语音数据和代表新知识的第二语音数据,将所述语音样本数据作为训练样本输入所述持续学习模型
中进行训练,包括:将所述第一语音数据输入所述教师模型进行预训练;将所述第二语音数据同时输入所述学生模型和完成预训练的所述教师模型,且将所述学生模型和完成预训练的所述教师模型均加载预设权重,以使完成预训练的教师模型和学生模型获得相同的过去知识;在训练过程中,冻结完成预训练的所述教师模型的权重,以使完成预训练的教师模型的参数不进行更新,且对学生模型进行梯度下降学习;通过完成预训练的教师模型对所述第二语音数据进行预测,并基于预测结果指导学生模型,以使学生模型在过去知识的基础上对新知识进行学习。
[0013]在本专利技术的一些实施例中,所述持续学习模型的训练方法还包括:
[0014]在训练过程中,基于特征图损失函数、知识蒸馏损失函数及交叉熵损失函数的加权和作为整体损失函数;
[0015]采用所述整体损失函数对所述持续学习模型进行优化;
[0016]当优化后的持续学习模型计算出的所述整体损失函数值收敛时,停止训练。
[0017]在本专利技术的一些实施例中,在所述采用训练好的持续学习模型对目标语音进行唤醒之前,还包括:
[0018]将所述目标语音转换为原始语音特征;
[0019]将所述原始语音特征输入所述训练好的持续学习模型。
[0020]在本专利技术的一些实施例中,将所述目标语音转换为原始语音特征,包括:
[0021]将所述目标语音依次进行预加重、分帧、加窗、离散傅里叶变换;
[0022]将离散傅里叶变换后得到的结果基于梅尔频率倒谱系数进行提取语音特征,得到所述原始语音特征。
[0023]在本专利技术的一些实施例中,在将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练之前,还包括:对所述语音样本数据进行语音增强变换操作,其中,所述语音增强变换操作至少包括语调变换、音量变换、淡入淡出变换、语速变换、首尾静音切割变换、带通滤波变换和带阻滤波变换。
[0024]本专利技术第二方面提供了一种基于持续学习模型的语音唤醒装置,所述装置包括:
[0025]构建模块,用于基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
[0026]获取模块,用于获取语音样本数据;
[0027]训练模块,用于将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
[0028]唤醒模块,用于采用训练好的持续学习模型对目标语音进行唤醒。
[0029]本专利技术第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:
[0030]基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;
[0031]获取语音样本数据;
[0032]将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;
[0033]采用训练好的持续学习模型对目标语音进行唤醒。
[0034]本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
[0035]本申请先基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型,获取语音样本数据,将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练,能提升模型的持续学习能力,采用训练好的持续学习模型对目标语音进行唤醒,能提升预测精准性和唤醒效率。特别地,在训练过程中,因为引入特征图损失函数,使模型更加优化,在知识蒸馏损失函数和交叉熵损失函数基础上引入特征图损失函数,将特征图损失函数、知识蒸馏损失函数及交叉熵损失函数的加权和作为整体损失函数以对模型进行不断优化,使模型实现了持续学习,且训练时无需保存原始数据,减少了数据存储消耗,大大提升了训练速度。不仅如此,学生模型负责学习新知识,教师模型负责引导学生模型不过度学习新知识,通过减小旧知识与新知识之间分布差异,实现了新知识的学习以及旧知识的保留,从而提升了语音唤醒的应用效率。
[0036]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0037]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于持续学习模型的语音唤醒方法,其特征在于,所述方法包括:基于轻量级深度残差卷积网络构建教师模型和学生模型,并将所述教师模型和所述学生模型组装为持续学习模型;获取语音样本数据;将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练;采用训练好的持续学习模型对目标语音进行唤醒。2.根据权利要求1所述的基于持续学习模型的语音唤醒方法,其特征在于,基于轻量级深度残差卷积网络构建的教师模型和学生模型均依次序配置有1层第一全连接层、5层残差卷积层、2层第二全连接层,1层特征图层和1层概率层,各层依所述次序堆叠排放。3.根据权利要求2所述的基于持续学习模型的语音唤醒方法,其特征在于,每层所述残差卷积层均由两层前馈网络和介于两层前馈网络中间的门控因果扩展卷积构成,所述两层前馈网络和所述门控因果扩展卷积通过残差连接的方式连接。4.根据权利要求1所述的基于持续学习模型的语音唤醒方法,其特征在于,所述语音样本数据包括代表过去知识的第一语音数据和代表新知识的第二语音数据,将所述语音样本数据作为训练样本输入所述持续学习模型中进行训练,包括:将所述第一语音数据输入所述教师模型进行预训练;将所述第二语音数据同时输入所述学生模型和完成预训练的所述教师模型,且将所述学生模型和完成预训练的所述教师模型均加载预设权重,以使完成预训练的教师模型和学生模型获得相同的过去知识;在训练过程中,冻结完成预训练的所述教师模型的权重,以使完成预训练的教师模型的参数不进行更新,且对学生模型进行梯度下降学习;通过完成预训练的教师模型对所述第二语音数据进行预测,并基于预测结果指导学生模型,以使学生模型在过去知识的基础上对新知识进行学习。5.根据权利要求4所述的基于持续学习模型的语音唤醒方法,其特征在于,所述持续学习模型的训练方法还...
【专利技术属性】
技术研发人员:潘帅,张伟,陈曦,麻志毅,
申请(专利权)人:杭州未名信科科技有限公司浙江省北大信息技术高等研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。