一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36183861 阅读:26 留言:0更新日期:2022-12-31 20:43
本公开关于一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,该方法包括:确定目标音频特征信息,对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,基于第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。本申请通过数据增强处理后的第一音频特征信息和第二音频特征信息对第一原始网络和第二原始网络进行训练,无需标签数据,从而减少了训练成本。本。本。

【技术实现步骤摘要】
一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质


[0001]本公开涉及互联网
,尤其涉及一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质。

技术介绍

[0002]声音携带的大量信息可以在我们的日常生活中发挥重要作用。在平常生活中,我们会收到各种声音,并用它们来判断我们在哪里(地铁,街道等),以及正在发生什么(警报器,狗叫等)。
[0003]随着人工智能的飞速发展,计算机也可以做出这样的判断,其准确性甚至超过了人类。计算机听觉和机器听觉成为流行且有前途的研究领域。音频分类与音频事件检测在物联网、移动导航设备等领域以及视觉信息不明确的情况下可以用于感知计算并为用户提供更好的响应。但是大部分工作都关注在有监督学习或者半监督学习中,这种学习模式需要数据的标签信息,而标签数据尤其是音频领域的数据标注成本较高,这就导致了标签数据获取难度大,从而加大了工作成本。

技术实现思路

[0004]本公开提供一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质,本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种音频识别模型训练方法,包括:
[0006]确定目标音频特征信息;
[0007]对目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息;
[0008]基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络;第一目标网络的第一音频输出数据和第二目标网络的第二音频输出数据之间的差距小于等于预设差距;
[0009]基于第一目标网络中的第一编码层或者第二目标网络中的第二编码层确定音频识别模型。
[0010]在一些可能的实施例中,基于第一音频特征信息和第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,包括:
[0011]通过第一原始网络对第一音频特征信息进行音频识别处理,得到第一音频输出数据;
[0012]通过第二原始网络对第二音频特征信息进行音频识别处理,得到第二音频输出数据;其中,第一音频输出数据和第二音频输出数据的数据维度相同;
[0013]基于第一音频输出数据和第二音频输出数据确定音频相似度数据;
[0014]基于音频相似度数据训练第一原始网络和第二原始网络;
[0015]在满足迭代终止条件的情况下,得到第一目标网络和第二目标网络。
[0016]在一些可能的实施例中,基于音频相似度数据训练第一原始网络和第二原始网络;在满足迭代终止条件的情况下,得到第一目标网络和第二目标网络,包括:
[0017]基于音频相似度数据对第一原始网络的第一网络参数进行更新,得到更新后的第一网络参数和更新后的第一原始网络;
[0018]基于更新后的第一网络参数对第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络;
[0019]循环训练第一原始网络和第二原始网络,直至满足迭代终止条件;
[0020]将训练后的第一原始网络确定为第一目标网络,将训练后的第二原始网络确定为第二目标网络。
[0021]在一些可能的实施例中,基于更新后的第一网络参数对第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络,包括:
[0022]获取第二原始网络的第二网络参数和滑动平均参数;
[0023]基于更新后的第一网络参数、第二网络参数和滑动平均参数确定更新后的第二网络参数;
[0024]基于更新后的第二网络参数对第二原始网络进行更新,得到更新后的第二原始网络。
[0025]在一些可能的实施例中,确定目标音频特征信息,包括:
[0026]获取原始音频;
[0027]对原始音频进行片段截取,得到目标音频;
[0028]对目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到目标音频特征信息。
[0029]在一些可能的实施例中,对目标音频特征信息进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,包括:
[0030]对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第一音频特征信息;
[0031]对目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到第二音频特征信息;第一音频特征信息和第二音频特征信息不相同。
[0032]在一些可能的实施例中,基于第一目标网络中的第一编码层确定音频识别模型之后,还包括:
[0033]获取音频风格数据集;音频风格数据集中包括N个音频风格对应的第一音频片段;其中,N为大于1的正整数;
[0034]对音频风格数据集中的每个第一音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第一音频片段对应的第三音频特征信息;
[0035]将每个第一音频片段对应的第三音频特征信息输入音频识别模型,得到每个第一音频片段对应的第一编码特征信息;
[0036]基于每个第一音频片段对应的第一编码特征信息进行分类,将音频风格数据集分为多个第一音频片段集;每个第一音频片段集中包括音频风格数据集中的至少一个第一音
频片段;
[0037]当第一音频片段集的数量满足N个时,确定音频识别模型验证成功。
[0038]在一些可能的实施例中,基于第一目标网络中的第一编码层确定音频识别模型之后,还包括:
[0039]获取音频场景数据集;音频场景数据集中包括M个音频场景对应的第二音频片段;其中,M为大于1的正整数;
[0040]对音频场景数据集中的每个第二音频片段进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到每个第二音频片段对应的第四音频特征信息;
[0041]将每个第二音频片段对应的第四音频特征信息输入音频识别模型,得到每个第二音频片段对应的第二编码特征信息;
[0042]基于每个第二音频片段对应的第二编码特征信息进行分类,将音频场景数据集分为多个第二音频片段集;每个第二音频片段集中包括声学场景数据集中的至少一个第二音频片段;
[0043]当第二音频片段集的数量满足M个时,确定音频识别模型验证成功。
[0044]在一些可能的实施例中,第一编码层和第二编码层都为38层的残差网络。
[0045]根据本公开实施例的第二方面,提供一种音频识别方法,包括:
[0046]获取待识别音频;
[0047]将待识别音频输入根据音频识别模型训练方法训练得到的音频识别模型,得到待识别音频的编码特征信息;
[0048]基于待识别音频的编码特征信息确定待识别音频的风格信息和/或场景信息。
[0049]根据本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频识别模型训练方法,其特征在于,包括:确定目标音频特征信息;对所述目标音频特征信息分别进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息;基于所述第一音频特征信息和所述第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络;所述第一目标网络的第一音频输出数据和所述第二目标网络的第二音频输出数据之间的差距小于等于预设差距;基于所述第一目标网络中的第一编码层或者所述第二目标网络中的第二编码层确定音频识别模型。2.根据权利要求1所述的音频识别模型训练方法,其特征在于,所述基于所述第一音频特征信息和所述第二音频特征信息分别对第一原始网络和第二原始网络进行音频识别训练,得到第一目标网络和第二目标网络,包括:通过所述第一原始网络对所述第一音频特征信息进行音频识别处理,得到所述第一音频输出数据;通过所述第二原始网络对所述第二音频特征信息进行音频识别处理,得到所述第二音频输出数据;其中,所述第一音频输出数据和所述第二音频输出数据的数据维度相同;基于所述第一音频输出数据和所述第二音频输出数据确定音频相似度数据;基于所述音频相似度数据训练所述第一原始网络和所述第二原始网络;在满足迭代终止条件的情况下,得到所述第一目标网络和所述第二目标网络。3.根据权利要求2所述的音频识别模型训练方法,其特征在于,所述基于所述音频相似度数据训练所述第一原始网络和所述第二原始网络;在满足迭代终止条件的情况下,得到所述第一目标网络和所述第二目标网络,包括:基于所述音频相似度数据对所述第一原始网络的第一网络参数进行更新,得到更新后的第一网络参数和更新后的第一原始网络;基于所述更新后的第一网络参数对所述第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络;循环训练所述第一原始网络和所述第二原始网络,直至满足迭代终止条件;将训练后的所述第一原始网络确定为所述第一目标网络,将训练后的所述第二原始网络确定为所述第二目标网络。4.根据权利要求3所述的音频识别模型训练方法,其特征在于,所述基于所述更新后的第一网络参数对所述第二原始网络的第二网络参数进行更新,得到更新后的第二网络参数和更新后的第二原始网络,包括:获取所述第二原始网络的第二网络参数和滑动平均参数;基于所述更新后的第一网络参数、所述第二网络参数和所述滑动平均参数确定所述更新后的第二网络参数;基于所述更新后的第二网络参数对所述第二原始网络进行更新,得到所述更新后的第二原始网络。5.根据权利要求1

4任一所述的音频识别模型训练方法,其特征在于,所述确定目标音频特征信息,包括:
获取原始音频;对所述原始音频进行片段截取,得到目标音频;对所述目标音频进行对数梅尔特征提取或者梅尔倒谱系数特征提取,得到所述目标音频特征信息。6.根据权利要求1所述的音频识别模型训练方法,其特征在于,所述对所述目标音频特征信息进行第一数据增强处理和第二数据增强处理,得到第一音频特征信息和第二音频特征信息,包括:对所述目标音频特征信息进行音频数据扩充处理、音频数据融合处理、音频数据时移处理和音频数据音高变化处理中的一项或者多项处理,得到所述第一音频特征信息;对所述目标音频特征信息进行所述音频数据扩充处理、所述音频数据融合处理、所述音频数据时移处理和所述音频数据音高变化处理中的一项或者多项处理,得到所述第二音频特征信息;所述第一音频特征信息和所述第二音频特征信息不相同。7.根据权利要求1

3任一所述的音频识别模型训练方法,其特征在于,所述基于所述第一目标网络中的第一编码层确定音频识别模型之后,还包括:获取...

【专利技术属性】
技术研发人员:王俊邓峰王晓瑞
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1