叠音检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36271227 阅读:51 留言:0更新日期:2023-01-07 10:13
本申请涉及一种叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。通过将待检测音频的音频特征输入第一二分类模型,由第一二分类模型检测待检测音频中的人声音频特征,将人声音频特征输入第二二分类模型,由第二二分类模型检测人声音频特征中的叠音音频特征,并基于叠音音频特征确定叠音音频。其中叠音音频特征表示包含至少两种人声音频的音频特征,第一二分类模型和第二二分类模型分别基于人声音频样本和由至少两种人声音频样本合成得到的音频样本训练得到。相较于传统的通过单级模型进行检测的方式,本方案通过多个由合成叠音训练的二分类模型分别检测音频中的人声音频以及人声音频中的叠音音频,提高了叠音检测的准确度。音检测的准确度。音检测的准确度。

【技术实现步骤摘要】
叠音检测方法、装置、计算机设备和存储介质


[0001]本申请涉及音频处理
,特别是涉及一种叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着经济的发展和语音技术的不断进步,语音相关技术在我们生活中的应用也越来越广泛,比如智能客服语音质检分析。在云计算、物联网、大数据等技术的推动下,企业会更加关注呼叫中心运维中的成本控制、风险管控和效能升级;客户需求的多样化和个性化对呼叫中心的热线服务质量也提出了更高要求;语音质检分析就变得尤为重要,坐席违规抢插话是其中一个关键质检项,而当抢插话存在时会存在叠音现象,因此如何对音频中的叠音行为进行检测成为了亟需解决的问题。目前检测音频中的叠音的方式通常是通过单级模型进行识别。然而,通过单级模型进行叠音识别,由于音频中包含的信息过多,会导致识别的准确度下降。
[0003]因此,目前对音频中的叠音检测方法存在识别准确度不高的缺陷。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高识别准确度的叠音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种叠音检测方法,所述方法包括:获取待检测音频及其待检测音频特征;将所述待检测音频特征输入第一二分类模型,由所述第一二分类模型检测所述待检测音频中的人声音频特征;所述第一二分类模型基于第一音频样本训练得到,所述第一音频样本包括人声音频样本;将所述人声音频特征输入第二二分类模型,由所述第二二分类模型检测所述人声音频特征中的叠音音频特征;所述叠音音频特征表征包含至少两种人声音频的音频特征;所述第二二分类模型基于第二音频样本训练得到;所述第二音频样本基于至少两种人声音频样本合成得到;根据所述叠音音频特征,确定所述待检测音频中的叠音音频。
[0006]在其中一个实施例中,所述获取待检测音频及其待检测音频特征,包括:获取待检测音频;提取所述待检测音频中的梅尔频率倒谱系数,得到所述待检测音频对应的待检测音频特征。
[0007]在其中一个实施例中,所述方法还包括:获取人声音频样本作为第一音频样本,并根据至少两种人声音频样本生成第二音频样本,获取所述第一音频样本对应的人声音频特征样本和所述第二音频样本对应的第二音频特征样本;
获取待训练第一二分类模型和待训练第二二分类模型;将所述第一音频特征样本输入所述待训练第一二分类模型,由所述待训练第一二分类模型检测所述第一音频特征样本中的待训练人声音频特征样本;根据所述待训练人声音频特征样本与所述第一音频特征样本中的人声音频特征样本的比较结果,调整所述第一二分类模型的模型参数,直至满足训练条件时得到训练完成的第一二分类模型;将所述第二音频特征样本输入所述待训练第二二分类模型,由所述待训练第二二分类模型检测所述音频特征样本中的待训练叠音音频特征样本;根据所述待训练叠音音频特征样本与所述第二音频特征样本中的叠音音频特征样本的比较结果,调整所述第二二分类模型的模型参数,直至满足训练条件时得到训练完成的第二二分类模型。
[0008]在其中一个实施例中,所述根据至少两种人声音频样本生成第二音频样本,包括:获取原始人声音频样本;所述原始人声音频样本中包含至少两个说话人对应的人声音频;提取所述原始人声音频样本中每个说话人对应的人声音频,并向每个说话人对应的人声音频添加对应的标识;将相同标识的人声音频进行合并,得到至少两个合并后的人声音频;将第一合并后的人声音频中预设时长的人声音频与第二合并后的人声音频中预设时长的人声音频进行时域线性叠加,得到第二音频样本;所述第一合并后的人声音频的标识和所述第二合并后的人声音频的标识不同;所述第二音频样本中起始预设时长内和结尾预设时长内包含单个说话人对应的人声音频。
[0009]在其中一个实施例中,所述第一二分类模型包括第一输入层、第一隐含层和第一输出层;所述将所述待检测音频特征输入第一二分类模型,由所述第一二分类模型检测所述待检测音频中的人声音频特征,包括:将所述待检测音频特征输入所述第一输入层,由所述第一二分类模型基于所述第一输入层和第一隐含层检测所述待检测音频特征属于人声音频特征的第一概率和属于非人声音频的第二概率,并当所述第一概率大于所述第二概率时确定所述待检测音频特征为人声音频特征,通过所述第一输出层输出所述人声音频特征。
[0010]在其中一个实施例中,所述第二二分类模型包括第二输入层、第二隐含层和第二输出层;所述将所述人声音频特征输入第二二分类模型,由所述第二二分类模型检测所述人声音频特征中的叠音音频特征,包括:将所述人声音频特征输入所述第二输入层,由所述第二二分类模型基于所述第二输入层和第二隐含层检测所述人声音频特征属于叠音音频特征的第三概率和属于非叠音音频的第四概率,并当所述第三概率大于所述第四概率时确定所述人声音频特征为叠音音频特征,通过所述第二输出层输出所述叠音音频特征。
[0011]在其中一个实施例中,所述根据所述叠音音频特征,确定所述待检测音频中的叠音音频,包括:
根据维特比算法和平滑算法,确定叠音音频起止时间戳;所述叠音音频起止时间戳表征所述待检测音频中与所述叠音音频特征对应的叠音音频的起止时间;根据所述叠音音频起止时间戳,确定所述待检测音频中的叠音音频。
[0012]第二方面,本申请提供了一种叠音检测装置,所述装置包括:获取模块,用于获取待检测音频及其待检测音频特征;第一检测模块,用于将所述待检测音频特征输入第一二分类模型,由所述第一二分类模型检测所述待检测音频中的人声音频特征;所述第一二分类模型基于第一音频样本训练得到,所述第一音频样本包括人声音频样本;第二检测模块,用于将所述人声音频特征输入第二二分类模型,由所述第二二分类模型检测所述人声音频特征中的叠音音频特征;所述叠音音频特征表征包含至少两种人声音频的音频特征;所述第二二分类模型基于第二音频样本训练得到;所述第二音频样本基于至少两种人声音频样本合成得到;确定模块,用于根据所述叠音音频特征,确定所述待检测音频中的叠音音频。
[0013]第三方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
[0014]第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
[0015]第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法的步骤。
[0016]上述叠音检测方法、装置、计算机设备、存储介质和计算机程序产品,通过将待检测音频的音频特征输入第一二分类模型,由第一二分类模型检测待检测音频中的人声音频特征,将人声音频特征输入第二二分类模型,由第二二分类模型检测人声音频特征中的叠音音频特征,并基于叠音音频特征确定叠音音频。其中叠音音频特征表示包含至少两种人声音频的音频特征,第一二分类模型和第二二分类模型分别基于人声音频样本和由至本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种叠音检测方法,其特征在于,所述方法包括:获取待检测音频及其待检测音频特征;将所述待检测音频特征输入第一二分类模型,由所述第一二分类模型检测所述待检测音频中的人声音频特征;所述第一二分类模型基于第一音频样本训练得到,所述第一音频样本包括人声音频样本;将所述人声音频特征输入第二二分类模型,由所述第二二分类模型检测所述人声音频特征中的叠音音频特征;所述叠音音频特征表征包含至少两种人声音频的音频特征;所述第二二分类模型基于第二音频样本训练得到;所述第二音频样本基于至少两种人声音频样本合成得到;根据所述叠音音频特征,确定所述待检测音频中的叠音音频。2.根据权利要求1所述的方法,其特征在于,所述获取待检测音频及其待检测音频特征,包括:获取待检测音频;提取所述待检测音频中的梅尔频率倒谱系数,得到所述待检测音频对应的待检测音频特征。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取人声音频样本作为第一音频样本,并根据至少两种人声音频样本生成第二音频样本,获取所述第一音频样本对应的人声音频特征样本和所述第二音频样本对应的第二音频特征样本;获取待训练第一二分类模型和待训练第二二分类模型;将所述第一音频特征样本输入所述待训练第一二分类模型,由所述待训练第一二分类模型检测所述第一音频特征样本中的待训练人声音频特征样本;根据所述待训练人声音频特征样本与所述第一音频特征样本中的人声音频特征样本的比较结果,调整所述第一二分类模型的模型参数,直至满足训练条件时得到训练完成的第一二分类模型;将所述第二音频特征样本输入所述待训练第二二分类模型,由所述待训练第二二分类模型检测所述音频特征样本中的待训练叠音音频特征样本;根据所述待训练叠音音频特征样本与所述第二音频特征样本中的叠音音频特征样本的比较结果,调整所述第二二分类模型的模型参数,直至满足训练条件时得到训练完成的第二二分类模型。4.根据权利要求3所述的方法,其特征在于,所述根据至少两种人声音频样本生成第二音频样本,包括:获取原始人声音频样本;所述原始人声音频样本中包含至少两个说话人对应的人声音频;提取所述原始人声音频样本中每个说话人对应的人声音频,并向每个说话人对应的人声音频添加对应的标识;将相同标识的人声音频进行合并,得到至少两个合并后的人声音频;将第一合并后的人声音频中预设时长的人声音频与第二合并后的人声音频中预设时长的人声音频进行时域线性叠加,得到第二音频样本;所述第一合并后的人声音频的标识
和所述第二合并后的人声音频的标识不同;所述第二音频样本中起始预设时长内和结尾预设时长内包含单个说话人对应的人...

【专利技术属性】
技术研发人员:黄文琦林全郴梁凌宇戴珍白昱阳赵翔宇郭尧
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1