【技术实现步骤摘要】
一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质
[0001]本公开涉及互联网
,尤其涉及一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质。
技术介绍
[0002]声音携带的大量信息可以在我们的日常生活中发挥重要作用。在平常生活中,我们会收到各种声音,并用它们来判断我们在哪里(地铁,街道等),以及正在发生什么(警报器,狗叫等)。
[0003]随着人工智能的飞速发展,计算机也可以做出这样的判断,其准确性甚至超过了人类。计算机听觉和机器听觉成为流行且有前途的研究领域。音频分类与音频事件检测在物联网、移动导航设备等领域以及视觉信息不明确的情况下可以用于感知计算并为用户提供更好的响应。但是大部分工作都关注在有监督学习或者半监督学习中,这种学习模式需要数据的标签信息,而标签数据尤其是音频领域的数据标注成本较高,这就导致了标签数据获取难度大,从而加大了工作成本。
技术实现思路
[0004]本公开提供一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种音频识别模型训练方法,包括:
[0006]确定目标音频特征信息;
[0007]对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息;
[0008]基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标 ...
【技术保护点】
【技术特征摘要】
1.一种音频识别模型训练方法,其特征在于,包括:确定目标音频特征信息;对所述目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息;基于所述第一音频特征信息和所述第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络;所述第一目标网络的第一音频输出数据和所述第二目标网络的第二音频输出数据之间的差距小于等于预设差距;基于所述第一目标网络中的第一编码层或者所述第二目标网络中的第二编码层确定音频识别模型。2.根据权利要求1所述的音频识别模型训练方法,其特征在于,所述基于所述第一音频特征信息和所述第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,包括:通过所述第一原始网络对所述第一音频特征信息进行音频识别处理,得到所述第一音频输出数据;通过所述第二原始网络对所述第二音频特征信息进行音频识别处理,得到所述第二音频输出数据;其中,所述第一音频输出数据和所述第二音频输出数据的数据维度相同;基于所述第一音频输出数据和所述第二音频输出数据确定音频相似度数据;基于所述音频相似度数据训练所述第一原始网络和所述第二原始网络;在满足迭代终止条件的情况下,得到所述第一目标网络和所述第二目标网络。3.根据权利要求2所述的音频识别模型训练方法,其特征在于,所述基于所述音频相似度数据训练所述第一原始网络和所述第二原始网络;在满足迭代终止条件的情况下,得到所述第一目标网络和所述第二目标网络,包括:基于所述音频相似度数据对所述第一原始网络的第一网络参数进行更新,得到更新后的第一网络参数和更新后的第一原始网络;基于所述更新后的第一网络参数对所述第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络;循环训练所述第一原始网络和所述第二原始网络,直至满足迭代终止条件;将训练后的所述第一原始网络确定为所述第一目标网络,将训练后的所述第二原始网络确定为所述第二目标网络。4.根据权利要求3所述的音频识别模型训练方法,其特征在于,所述基于所述更新后的第一网络参数对所述第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络,包括:获取所述第二原始网络的第二网络参数和滑动平均参数;基于所述更新后的第一网络参数、所述第二网络参数和所述滑动平均参数确定所述更新后的第二网络参数;基于所述更新后的第二网络参数对所述第二原始网络进行更新,得到所述更新后的第二原始网络。5.根据权利要求1
‑
4任一所述的音频识别模型训练方法,其特征在于,所述确定目标音频特征信息,包括:
获取原始音频;对所述原始音频进行片段截取,得到目标音频;对所述目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到所述目标音频特征信息。6.根据权利要求1所述的音频识别模型训练方法,其特征在于,所述对所述目标音频特征信息进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,包括:对所述目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到所述第一音频特征信息;对所述目标音频特征信息进行所述音频数据扩充处理、所述音频数据融合处理、所述音频数据时移处理和所述音频数据音高变化处理中的一项或者多项处理,得到所述第二音频特征信息;所述第一音频特征信息和所述第二音频特征信息不相同。7.根据权利要求1
‑
3任一所述的音频识别模型训练方法,其特征在于,所述基于所述第一目标网络中的第一编码层确定音频识别模型之后,还包括:获取...
【专利技术属性】
技术研发人员:王俊,邓峰,王晓瑞,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。