音频质量识别模型的训练、音频质量识别方法及存储介质技术

技术编号:38704157 阅读:14 留言:0更新日期:2023-09-08 14:44
本公开关于一种音频质量识别模型的训练、音频质量识别方法及存储介质,所述方法包括:获取样本音频数据;所述样本音频数据包括样本音质类别标签以及样本损伤信息标签;基于预设模型对所述样本音频数据进行识别处理,得到所述样本音频数据的样本音质类别结果和样本损伤信息结果;根据所述样本音质类别结果与所述样本音质类别标签的第一差异,以及所述样本损伤信息结果与所述样本损伤信息标签的第二差异,训练所述预设模型,得到音频质量识别模型。本公开的音频质量识别模型实现了同步预测音频数据的音质类别以及损伤信息。频数据的音质类别以及损伤信息。频数据的音质类别以及损伤信息。

【技术实现步骤摘要】
音频质量识别模型的训练、音频质量识别方法及存储介质


[0001]本公开涉及计算机
,尤其涉及一种音频质量识别模型的训练、音频质量识别方法及存储介质。

技术介绍

[0002]实时音频通信系统在日常工作和生活中已得到广泛应用。在会议场景中,音频音质会受到许多因素影响,如背景噪声、房间混响、传输信道丢包和抖动等。无论是音频通信系统中的音频算法迭代,还是网络传输服务提供商的资源统筹和排障,都需要一种能够在各种使用场景下评价音频质量的方法。基于信号处理的客观音频质量评估算法,如常用的PESQ和STOI等,需要同时输入损伤音频和参考音频。由于在很多实际使用场景中无法得到参考音频,因此这些客观指标的使用场景相对受限。
[0003]此外,除了评估音频总体音质之外,在实际音频交互系统中,往往还需要对音频质量问题进行归因,进而根据相关归因指标来分析问题和改进音频音质。相关技术中,只能评估音频总体音质,无法提供音频的音质损失归因分析。

技术实现思路

[0004]本公开提供一种音频质量识别模型的训练、音频质量识别方法及存储介质,以至少解决相关技术中无法同步确定音频的音质以及音质损失归因的问题。本公开的技术方案如下:
[0005]根据本公开实施例的第一方面,提供一种音频质量识别方法,包括:
[0006]获取样本音频数据;所述样本音频数据包括样本音质类别标签以及样本损伤信息标签;
[0007]基于预设模型对所述样本音频数据进行识别处理,得到所述样本音频数据的样本音质类别结果和样本损伤信息结果
[0008]根据所述样本音质类别结果与所述样本音质类别标签的第一差异,以及所述样本损伤信息结果与所述样本损伤信息标签的第二差异,训练所述预设模型,得到音频质量识别模型。
[0009]在一示例性的实施方式中,所述预设模型包括音频特征提取网络、音质分类网络以及损伤信息识别网络,所述基于预设模型对所述样本音频数据进行识别处理,得到所述样本音频数据的样本音质类别结果和样本损伤信息结果,包括:
[0010]基于预设模型的音频特征提取网络,对所述样本音频数据进行音频特征提取处理,得到所述样本音频数据对应的样本音频特征;
[0011]基于所述音质分类网络对所述样本音频特征进行音质分类处理,得到所述样本音频数据的样本音质类别结果;
[0012]基于所述损伤信息识别网络对所述样本音频特征进行损伤信息识别处理,得到所述样本音频数据的样本损伤信息结果。
[0013]在一示例性的实施方式中,所述预设模型还包括门控卷积层、双向循环网络层以及全连接层,所述基于预设模型的音频特征提取网络,对所述样本音频数据进行音频特征提取处理,得到所述样本音频数据对应的样本音频特征之后,所述方法还包括:
[0014]将所述样本音频特征输入所述门控卷积层进行卷积操作,得到样本卷积特征;
[0015]将所述样本卷积特征输入所述双向循环网络层,对所述样本卷积特征进行融合处理,得到样本融合特征;
[0016]将所述样本融合特征输入所述全连接层进行特征分类处理,得到样本音质特征以及样本音质损伤特征;
[0017]所述基于所述音质分类网络对所述样本音频特征进行音质分类处理,包括:
[0018]基于所述音质分类网络对所述样本音质特征,进行音质分类处理;
[0019]所述基于所述损伤信息识别网络对所述样本音频特征进行损伤信息识别处理,包括:
[0020]基于所述损伤信息识别网络对所述样本音质损伤特征,进行损伤信息识别处理。
[0021]在一示例性的实施方式中,所述全连接层包括第一全连接层以及第二全连接层,所述将所述样本融合特征输入所述全连接层进行特征分类处理,得到样本音质特征以及样本音质损伤特征,包括:
[0022]将所述样本融合特征输入所述第一全连接层进行特征提取处理,得到样本共享特征;所述样本共享特征为所述样本音质特征与所述样本音质损伤特征的融合特征;
[0023]将所述样本共享特征输入所述第二全连接层进行特征分解处理,得到所述样本音质特征以及所述样本音质损伤特征。
[0024]在一示例性的实施方式中,所述方法还包括:
[0025]获取预训练音频数据;所述预训练音频数据标注了训练损伤信息标签;
[0026]基于初始模型对所述预训练音频数据进行损伤信息提取处理,得到损伤信息结果;
[0027]基于所述损伤信息结果与所述训练损伤信息标签之间的差异,训练所述初始模型,得到所述损伤信息识别网络。
[0028]在一示例性的实施方式中,所述根据所述样本音质类别结果与所述样本音质类别标签的第一差异,以及所述样本损伤信息结果与所述样本损伤信息标签的第二差异,调整所述预设模型的参数,得到音频质量识别模型,包括:
[0029]根据所述样本音质类别结果与所述样本音质类别标签的第一差异,确定第一损失信息;
[0030]根据所述样本损伤信息结果与所述样本损伤信息标签的第二差异,确定第二损失信息;
[0031]根据所述第一损失信息以及所述第二损失信息,确定目标损失信息;
[0032]根据所述目标损失信息,调整所述预设模型的参数,得到所述音频质量识别模型。
[0033]在一示例性的实施方式中,所述获取样本音频数据,包括:
[0034]获取第一样本音频数据和第二样本音频数据,所述第一样本音频数据标注了样本音质类别标签,所述第二样本音频数据标注了样本损伤信息标签;
[0035]所述根据所述样本音质类别结果与所述样本音质类别标签的第一差异,以及所述
样本损伤信息结果与所述样本损伤信息标签的第二差异,训练所述预设模型,包括:
[0036]根据所述第一样本音频数据的样本音质类别结果与所述样本音质类别标签的第一差异,以及所述第二样本音频数据的样本损伤信息结果与所述样本损伤信息标签的第二差异,训练所述预设模型。
[0037]在一示例性的实施方式中,所述样本损伤信息包括样本损伤类型以及样本损伤级别;所述样本损伤类型包括以下至少一项:
[0038]环境声损伤类型、混响损伤类型、设备频响损伤类型、编解码损伤类型。
[0039]根据本公开实施例的第二方面,提供一种音频质量识别方法,所述方法包括:
[0040]获取待识别音频数据;
[0041]将所述待识别音频数据输入音频质量识别模型,得到所述待识别音频数据的音质类别以及损伤信息;所述损伤信息包括所述待识别音频数据的损伤类型以及所述损伤类型对应的损伤级别;其中,所述音频质量识别模型为基于上述的音频质量识别模型的训练方法得到的。
[0042]根据本公开实施例的第三方面,提供一种音频质量识别模型的训练装置,包括:
[0043]样本数据获取模块,被配置为执行获取样本音频数据;所述样本音频数据包括样本音质类别标签以及样本损伤信息标签;
[0044]样本结果确定模块,被配置为执行基于预设模型对所述样本音频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频质量识别模型的训练方法,其特征在于,包括:获取样本音频数据;所述样本音频数据包括样本音质类别标签以及样本损伤信息标签;基于预设模型对所述样本音频数据进行识别处理,得到所述样本音频数据的样本音质类别结果和样本损伤信息结果;根据所述样本音质类别结果与所述样本音质类别标签的第一差异,以及所述样本损伤信息结果与所述样本损伤信息标签的第二差异,训练所述预设模型,得到音频质量识别模型。2.根据权利要求1所述的方法,其特征在于,所述预设模型包括音频特征提取网络、音质分类网络以及损伤信息识别网络,所述基于预设模型对所述样本音频数据进行识别处理,得到所述样本音频数据的样本音质类别结果和样本损伤信息结果,包括:基于预设模型的音频特征提取网络,对所述样本音频数据进行音频特征提取处理,得到所述样本音频数据对应的样本音频特征;基于所述音质分类网络对所述样本音频特征进行音质分类处理,得到所述样本音频数据的样本音质类别结果;基于所述损伤信息识别网络对所述样本音频特征进行损伤信息识别处理,得到所述样本音频数据的样本损伤信息结果。3.根据权利要求2所述的方法,其特征在于,所述预设模型还包括门控卷积层、双向循环网络层以及全连接层,所述基于预设模型的音频特征提取网络,对所述样本音频数据进行音频特征提取处理,得到所述样本音频数据对应的样本音频特征之后,所述方法还包括:将所述样本音频特征输入所述门控卷积层进行卷积操作,得到样本卷积特征;将所述样本卷积特征输入所述双向循环网络层,对所述样本卷积特征进行融合处理,得到样本融合特征;将所述样本融合特征输入所述全连接层进行特征分类处理,得到样本音质特征以及样本音质损伤特征;所述基于所述音质分类网络对所述样本音频特征进行音质分类处理,包括:基于所述音质分类网络对所述样本音质特征,进行音质分类处理;所述基于所述损伤信息识别网络对所述样本音频特征进行损伤信息识别处理,包括:基于所述损伤信息识别网络对所述样本音质损伤特征,进行损伤信息识别处理。4.根据权利要求3所述的方法,其特征在于,所述全连接层包括第一全连接层以及第二全连接层,所述将所述样本融合特征输入所述全连接层进行特征分类处理,得到样本音质特征以及样本音质损伤特征,包括:将所述样本融合特征输入所述第一全连接层进行特征提取处理,得到样本共享特征;所述样本共享特征为所述样本音质特征与所述样本音质损伤特征的融合特征;将所述样本共享特征输入所述第二全连接层进行特征分解处理,得到所述样本音质特征以及所述样本音质损伤特征。5.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取预训练音频数据;所述预训练音频数据标注了训练损伤信息标签;基于初始模型对所述预训练音频数据进行损伤信息提取处理,得到损伤信息结果;
基于所述损伤信息结果与所述训练损伤信息标签之间的差异,训练所述初始模型,得到所述损伤信息识别网络。6.根据权利要求1所述的方法,其特征在于,所述根据所述样本音质类别结果与所述样本音质类别标签的第一差异,以及所述样本损伤信息结果与所述样本损伤信息标签的第二差异,调整所述预设模型的参数,得到音频质量识别模型,包括:根据所述样本音质类别结果与所述样本音质类别标签的第一差...

【专利技术属性】
技术研发人员:陈联武郑羲光张晨
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1