模型训练、音频处理方法、装置、设备、存储介质及程序制造方法及图纸

技术编号：33474357 阅读：15 留言：0更新日期：2022-05-19 00:50

本公开提供了模型训练、音频处理方法、装置、设备、存储介质及程序，涉及人工智能领域，尤其涉及语音交互、自然语言处理、深度学习技术。具体实现方案为：获取第一训练样本，第一训练样本包括：第一纯净唤醒音频和第一回声唤醒音频；通过待训练的回声消除模型对第一回声唤醒音频进行回声消除处理，得到第一预测唤醒音频；根据第一预测唤醒音频和第一纯净唤醒音频，对回声消除模型的模型参数进行更新，更新的目标为：唤醒识别模型对第一预测唤醒音频的唤醒识别结果趋近于对第一纯净唤醒音频的唤醒识别结果。通过上述训练过程，提升了回声消除模型输出的音频能够被唤醒识别模型准确识别的概率，因此，能够提高回声场景下的电子设备的唤醒成功率。备的唤醒成功率。备的唤醒成功率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练、音频处理方法、装置、设备、存储介质及程序

[0001]本公开涉及人工智能领域中的语音交互、自然语言处理、深度学习技术，尤其涉及一种模型训练、音频处理方法、装置、设备、存储介质及程序。

技术介绍

[0002]目前，很多电子设备支持语音交互功能，例如，智能电视、智能音箱、智能车载设备等。用户在向电子设备输入语音指令之前，需要先通过指定唤醒语句来唤醒电子设备。
[0003]在一些场景中，电子设备的扬声器正在播放音频(例如播放音乐、天气信息或者新闻等)的情况下，扬声器所播放的音频由于空间反射形成回声。用户唤醒电子设备时，电子设备的麦克风采集到的音频中不可避免地存在上述回声，导致电子设备的唤醒成功率较低。

技术实现思路

[0004]本公开提供了一种模型训练、音频处理方法、装置、设备、存储介质及程序。
[0005]根据本公开的第一方面，提供了一种模型训练方法，包括：
[0006]获取第一训练样本，所述第一训练样本包括：第一纯净唤醒音频和第一回声唤醒音频，所述第一回声唤醒音频是通过对所述第一纯净唤醒音频添加回声得到的；
[0007]通过待训练的回声消除模型对所述第一回声唤醒音频进行回声消除处理，得到第一预测唤醒音频；
[0008]根据所述第一预测唤醒音频和所述第一纯净唤醒音频，对所述回声消除模型的模型参数进行更新，所述更新的目标为：唤醒识别模型对所述第一预测唤醒音频的唤醒识别结果趋近于对所述第一纯净唤醒音频的唤醒识别结果。
[0009]根据本公开的第二方面，...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，包括：获取第一训练样本，所述第一训练样本包括：第一纯净唤醒音频和第一回声唤醒音频，所述第一回声唤醒音频是通过对所述第一纯净唤醒音频添加回声得到的；通过待训练的回声消除模型对所述第一回声唤醒音频进行回声消除处理，得到第一预测唤醒音频；根据所述第一预测唤醒音频和所述第一纯净唤醒音频，对所述回声消除模型的模型参数进行更新，所述更新的目标为：唤醒识别模型对所述第一预测唤醒音频的唤醒识别结果趋近于对所述第一纯净唤醒音频的唤醒识别结果。2.根据权利要求1所述的方法，其中，根据所述第一预测唤醒音频和所述第一纯净唤醒音频，对所述回声消除模型的模型参数进行更新，包括：通过所述唤醒识别模型对所述第一预测唤醒音频进行处理，得到第一唤醒识别结果，以及通过所述唤醒识别模型对所述第一纯净唤醒音频进行处理，得到第二唤醒识别结果；根据所述第一唤醒识别结果和所述第二唤醒识别结果，确定第一损失函数；根据所述第一损失函数，对所述回声消除模型的模型参数进行更新。3.根据权利要求2所述的方法，其中，通过所述唤醒识别模型对所述第一预测唤醒音频进行处理，得到第一唤醒识别结果，以及通过所述唤醒识别模型对所述第一纯净唤醒音频进行处理，得到第二唤醒识别结果，包括：通过所述唤醒识别模型对所述第一预测唤醒音频进行特征提取处理，得到第一音频特征，并对所述第一音频特征进行唤醒识别处理，得到所述第一唤醒识别结果；通过所述唤醒识别模型对所述第一纯净唤醒音频进行特征提取处理，得到第二音频特征，并对所述第二音频特征进行唤醒识别处理，得到所述第二唤醒识别结果；根据所述第一唤醒识别结果和所述第二唤醒识别结果，确定第一损失函数，包括：根据所述第一音频特征、所述第二音频特征、所述第一唤醒识别结果和所述第二唤醒识别结果，确定所述第一损失函数。4.根据权利要求3所述的方法，其中，根据所述第一音频特征、所述第二音频特征、所述第一唤醒识别结果和所述第二唤醒识别结果，确定所述第一损失函数，包括：根据所述第一唤醒识别结果和所述第二唤醒识别结果，确定识别结果损失函数；根据所述第一音频特征和所述第二音频特征，确定特征损失函数；根据所述识别结果损失函数和所述特征损失函数，确定所述第一损失函数。5.根据权利要求4所述的方法，其中，所述唤醒识别模型包括N个特征提取单元，所述N为大于1的整数；所述第一音频特征包括：各特征提取单元输出的第一中间音频特征；所述第二音频特征包括：各特征提取单元输出的第二中间音频特征；根据所述第一音频特征和所述第二音频特征，确定特征损失函数，包括：根据同一特征提取单元输出的所述第一中间音频特征和所述第二中间音频特征，确定所述特征提取单元对应的中间特征损失函数；根据所述N个特征提取单元对应的中间特征损失函数，确定所述特征损失函数。6.根据权利要求1至5任一项所述的方法，根据所述第一预测唤醒音频和所述第一纯净唤醒音频，对所述回声消除模型的模型参数进行更新之后，还包括：判断更新后的回声消除模型是否收敛；
若是，则将更新后的回声消除模型作为训练完成的回声消除模型；若否，则重复对所述回声消除模型进行训练，直至更新后的回声消除模型收敛。7.根据权利要求1至6任一项所述的方法，还包括：获取第二训练样本，所述第二训练样本包括：第二纯净唤醒音频和第二回声唤醒音频，所述第二回声唤醒音频是通过对所述第二纯净唤醒音频添加回声得到的；通过预设基础模型对所述第二回声唤醒音频进行回声消除处理，得到第二预测唤醒音频；根据所述第二预测唤醒音频和所述第二纯净唤醒音频，对所述预设基础模型的模型参数进行更新，以得到所述待训练的回声消除模型。8.根据权利要求7所述的方法，根据所述第二预测唤醒音频和所述第二纯净唤醒音频，对所述预设基础模型的模型参数进行更新，以得到所述待训练的回声消除模型，包括：根据所述第二预测唤醒音频和所述第二纯净唤醒音频，确定第二损失函数；根据所述第二损失函数，对所述预设基础模型的模型参数进行更新；判断更新后的预设基础模型是否收敛；若是，则将所述更新后的预设基础模型作为所述待训练的回声消除模型；若否，则重复对所述预设基础模型进行训练，直至更新后的预设基础模型收敛。9.一种音频处理方法，包括：获取电子设备采集到的第一音频；通过回声消除模型对所述第一音频进行回声消除处理，得到第二音频；通过唤醒识别模型对所述第二音频进行唤醒识别处理，以确定是否唤醒所述电子设备；其中，所述回声消除模型是采用如权利要求1至8任一项所述的模型训练方法得到的。10.根据权利要求9所述的方法，其中，通过回声消除模型对所述第一音频进行回声消除处理，得到第二音频，包括：采用声学回声消除AEC技术对所述第一音频进行回声消除处理，得到中间音频；通过所述回声消除模型对所述中间音频进行回声消除处理，得到所述第二音频。11.一种模型训练装置，包括：第一获取模块，用于获取第一训练样本，所述第一训练样本包括：第一纯净唤醒音频和第一回声唤醒音频，所述第一回声唤醒音频是通过对所述第一纯净唤醒音频添加回声得到的；第一处理模块，用于通过待训练的回声消除模型...

【专利技术属性】
技术研发人员：陈立，邹赛赛，许楠，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人