模型训练、音频处理方法、装置、设备、存储介质及程序制造方法及图纸

技术编号:33474357 阅读:15 留言:0更新日期:2022-05-19 00:50
本公开提供了模型训练、音频处理方法、装置、设备、存储介质及程序,涉及人工智能领域,尤其涉及语音交互、自然语言处理、深度学习技术。具体实现方案为:获取第一训练样本,第一训练样本包括:第一纯净唤醒音频和第一回声唤醒音频;通过待训练的回声消除模型对第一回声唤醒音频进行回声消除处理,得到第一预测唤醒音频;根据第一预测唤醒音频和第一纯净唤醒音频,对回声消除模型的模型参数进行更新,更新的目标为:唤醒识别模型对第一预测唤醒音频的唤醒识别结果趋近于对第一纯净唤醒音频的唤醒识别结果。通过上述训练过程,提升了回声消除模型输出的音频能够被唤醒识别模型准确识别的概率,因此,能够提高回声场景下的电子设备的唤醒成功率。备的唤醒成功率。备的唤醒成功率。

【技术实现步骤摘要】
模型训练、音频处理方法、装置、设备、存储介质及程序


[0001]本公开涉及人工智能领域中的语音交互、自然语言处理、深度学习技术,尤其涉及一种模型训练、音频处理方法、装置、设备、存储介质及程序。

技术介绍

[0002]目前,很多电子设备支持语音交互功能,例如,智能电视、智能音箱、智能车载设备等。用户在向电子设备输入语音指令之前,需要先通过指定唤醒语句来唤醒电子设备。
[0003]在一些场景中,电子设备的扬声器正在播放音频(例如播放音乐、天气信息或者新闻等)的情况下,扬声器所播放的音频由于空间反射形成回声。用户唤醒电子设备时,电子设备的麦克风采集到的音频中不可避免地存在上述回声,导致电子设备的唤醒成功率较低。

技术实现思路

[0004]本公开提供了一种模型训练、音频处理方法、装置、设备、存储介质及程序。
[0005]根据本公开的第一方面,提供了一种模型训练方法,包括:
[0006]获取第一训练样本,所述第一训练样本包括:第一纯净唤醒音频和第一回声唤醒音频,所述第一回声唤醒音频是通过对所述第一纯净唤醒音频添加回声得到的;
[0007]通过待训练的回声消除模型对所述第一回声唤醒音频进行回声消除处理,得到第一预测唤醒音频;
[0008]根据所述第一预测唤醒音频和所述第一纯净唤醒音频,对所述回声消除模型的模型参数进行更新,所述更新的目标为:唤醒识别模型对所述第一预测唤醒音频的唤醒识别结果趋近于对所述第一纯净唤醒音频的唤醒识别结果。
[0009]根据本公开的第二方面,提供了一种音频处理方法,包括:
[0010]获取电子设备采集到的第一音频;
[0011]通过回声消除模型对所述第一音频进行回声消除处理,得到第二音频;
[0012]通过唤醒识别模型对所述第二音频进行唤醒识别处理,以确定是否唤醒所述电子设备;
[0013]其中,所述回声消除模型是采用如第一方面所述的模型训练方法得到的。
[0014]根据本公开的第三方面,提供了一种模型训练装置,包括:
[0015]第一获取模块,用于获取第一训练样本,所述第一训练样本包括:第一纯净唤醒音频和第一回声唤醒音频,所述第一回声唤醒音频是通过对所述第一纯净唤醒音频添加回声得到的;
[0016]第一处理模块,用于通过待训练的回声消除模型对所述第一回声唤醒音频进行回声消除处理,得到第一预测唤醒音频;
[0017]第一更新模块,用于根据所述第一预测唤醒音频和所述第一纯净唤醒音频,对所述回声消除模型的模型参数进行更新,所述更新的目标为:唤醒识别模型对所述第一预测
唤醒音频的唤醒识别结果趋近于对所述第一纯净唤醒音频的唤醒识别结果。
[0018]根据本公开的第四方面,提供了一种音频处理装置,包括:
[0019]获取模块,用于获取电子设备采集到的第一音频;
[0020]处理模块,用于通过回声消除模型对所述第一音频进行回声消除处理,得到第二音频;
[0021]识别模块,用于通过唤醒识别模型对所述第二音频进行唤醒识别处理,以确定是否唤醒所述电子设备;
[0022]其中,所述回声消除模型是由如第三方面所述的模型训练装置训练得到的。
[0023]根据本公开的第五方面,提供了一种电子设备,包括:
[0024]至少一个处理器;以及
[0025]与所述至少一个处理器通信连接的存储器;其中,
[0026]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法,或者,执行第二方面所述的方法。
[0027]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面所述的方法,或者,执行根据第二方面所述的方法。
[0028]根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法,或者,执行第二方面所述的方法。
[0029]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0030]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0031]图1为本公开实施例提供的一种电子设备唤醒场景的示意图;
[0032]图2为本公开实施例提供的另一种电子设备唤醒场景的示意图;
[0033]图3为本公开实施例涉及的系统架构的示意图;
[0034]图4为本公开实施例提供的一种模型训练方法的流程示意图;
[0035]图5为本公开实施例提供的一种模型训练过程的示意图;
[0036]图6为本公开实施例提供的另一种模型训练过程的示意图;
[0037]图7为本公开实施例提供的又一种模型训练过程的示意图;
[0038]图8为本公开实施例提供的又一种模型训练过程的示意图;
[0039]图9为本公开实施例提供的一种音频处理方法的流程示意图;
[0040]图10为本公开实施例提供的一种音频处理过程的示意图;
[0041]图11为本公开实施例提供的一组回声消除效果的示意图;
[0042]图12为本公开实施例提供的一种模型训练装置的结构示意图;
[0043]图13为本公开实施例提供的一种音频处理装置的结构示意图;
[0044]图14为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0045]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0046]本公开实施例适用于用户与电子设备进行语音交互的场景。其中,电子设备可以是具有语音交互功能的任意电子设备,包括但不限于:智能电视、智能音箱、智能穿戴设备、智能车载设备、智能手机等。
[0047]用户在向电子设备输入语音指令之前,需要先通过指定唤醒语句来唤醒电子设备。为了便于理解,结合图1对电子设备的唤醒过程进行举例说明。
[0048]图1为本公开实施例提供的一种电子设备唤醒场景的示意图。如图1所示,以电子设备为智能音箱为例进行举例说明。假设该电子设备对应的指定唤醒语句为“小D小D”。用户可以通过向电子设备输入唤醒语句“小D小D”来唤醒电子设备。参见图1,电子设备的麦克风采集到用户输入的音频后,将采集到的音频输入唤醒识别模型。唤醒识别模型用于对采集到的音频进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:获取第一训练样本,所述第一训练样本包括:第一纯净唤醒音频和第一回声唤醒音频,所述第一回声唤醒音频是通过对所述第一纯净唤醒音频添加回声得到的;通过待训练的回声消除模型对所述第一回声唤醒音频进行回声消除处理,得到第一预测唤醒音频;根据所述第一预测唤醒音频和所述第一纯净唤醒音频,对所述回声消除模型的模型参数进行更新,所述更新的目标为:唤醒识别模型对所述第一预测唤醒音频的唤醒识别结果趋近于对所述第一纯净唤醒音频的唤醒识别结果。2.根据权利要求1所述的方法,其中,根据所述第一预测唤醒音频和所述第一纯净唤醒音频,对所述回声消除模型的模型参数进行更新,包括:通过所述唤醒识别模型对所述第一预测唤醒音频进行处理,得到第一唤醒识别结果,以及通过所述唤醒识别模型对所述第一纯净唤醒音频进行处理,得到第二唤醒识别结果;根据所述第一唤醒识别结果和所述第二唤醒识别结果,确定第一损失函数;根据所述第一损失函数,对所述回声消除模型的模型参数进行更新。3.根据权利要求2所述的方法,其中,通过所述唤醒识别模型对所述第一预测唤醒音频进行处理,得到第一唤醒识别结果,以及通过所述唤醒识别模型对所述第一纯净唤醒音频进行处理,得到第二唤醒识别结果,包括:通过所述唤醒识别模型对所述第一预测唤醒音频进行特征提取处理,得到第一音频特征,并对所述第一音频特征进行唤醒识别处理,得到所述第一唤醒识别结果;通过所述唤醒识别模型对所述第一纯净唤醒音频进行特征提取处理,得到第二音频特征,并对所述第二音频特征进行唤醒识别处理,得到所述第二唤醒识别结果;根据所述第一唤醒识别结果和所述第二唤醒识别结果,确定第一损失函数,包括:根据所述第一音频特征、所述第二音频特征、所述第一唤醒识别结果和所述第二唤醒识别结果,确定所述第一损失函数。4.根据权利要求3所述的方法,其中,根据所述第一音频特征、所述第二音频特征、所述第一唤醒识别结果和所述第二唤醒识别结果,确定所述第一损失函数,包括:根据所述第一唤醒识别结果和所述第二唤醒识别结果,确定识别结果损失函数;根据所述第一音频特征和所述第二音频特征,确定特征损失函数;根据所述识别结果损失函数和所述特征损失函数,确定所述第一损失函数。5.根据权利要求4所述的方法,其中,所述唤醒识别模型包括N个特征提取单元,所述N为大于1的整数;所述第一音频特征包括:各特征提取单元输出的第一中间音频特征;所述第二音频特征包括:各特征提取单元输出的第二中间音频特征;根据所述第一音频特征和所述第二音频特征,确定特征损失函数,包括:根据同一特征提取单元输出的所述第一中间音频特征和所述第二中间音频特征,确定所述特征提取单元对应的中间特征损失函数;根据所述N个特征提取单元对应的中间特征损失函数,确定所述特征损失函数。6.根据权利要求1至5任一项所述的方法,根据所述第一预测唤醒音频和所述第一纯净唤醒音频,对所述回声消除模型的模型参数进行更新之后,还包括:判断更新后的回声消除模型是否收敛;
若是,则将更新后的回声消除模型作为训练完成的回声消除模型;若否,则重复对所述回声消除模型进行训练,直至更新后的回声消除模型收敛。7.根据权利要求1至6任一项所述的方法,还包括:获取第二训练样本,所述第二训练样本包括:第二纯净唤醒音频和第二回声唤醒音频,所述第二回声唤醒音频是通过对所述第二纯净唤醒音频添加回声得到的;通过预设基础模型对所述第二回声唤醒音频进行回声消除处理,得到第二预测唤醒音频;根据所述第二预测唤醒音频和所述第二纯净唤醒音频,对所述预设基础模型的模型参数进行更新,以得到所述待训练的回声消除模型。8.根据权利要求7所述的方法,根据所述第二预测唤醒音频和所述第二纯净唤醒音频,对所述预设基础模型的模型参数进行更新,以得到所述待训练的回声消除模型,包括:根据所述第二预测唤醒音频和所述第二纯净唤醒音频,确定第二损失函数;根据所述第二损失函数,对所述预设基础模型的模型参数进行更新;判断更新后的预设基础模型是否收敛;若是,则将所述更新后的预设基础模型作为所述待训练的回声消除模型;若否,则重复对所述预设基础模型进行训练,直至更新后的预设基础模型收敛。9.一种音频处理方法,包括:获取电子设备采集到的第一音频;通过回声消除模型对所述第一音频进行回声消除处理,得到第二音频;通过唤醒识别模型对所述第二音频进行唤醒识别处理,以确定是否唤醒所述电子设备;其中,所述回声消除模型是采用如权利要求1至8任一项所述的模型训练方法得到的。10.根据权利要求9所述的方法,其中,通过回声消除模型对所述第一音频进行回声消除处理,得到第二音频,包括:采用声学回声消除AEC技术对所述第一音频进行回声消除处理,得到中间音频;通过所述回声消除模型对所述中间音频进行回声消除处理,得到所述第二音频。11.一种模型训练装置,包括:第一获取模块,用于获取第一训练样本,所述第一训练样本包括:第一纯净唤醒音频和第一回声唤醒音频,所述第一回声唤醒音频是通过对所述第一纯净唤醒音频添加回声得到的;第一处理模块,用于通过待训练的回声消除模型...

【专利技术属性】
技术研发人员:陈立邹赛赛许楠
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1