叠音检测方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：36271227 阅读：65 留言：0更新日期：2023-01-07 10:13

本申请涉及一种叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。通过将待检测音频的音频特征输入第一二分类模型，由第一二分类模型检测待检测音频中的人声音频特征，将人声音频特征输入第二二分类模型，由第二二分类模型检测人声音频特征中的叠音音频特征，并基于叠音音频特征确定叠音音频。其中叠音音频特征表示包含至少两种人声音频的音频特征，第一二分类模型和第二二分类模型分别基于人声音频样本和由至少两种人声音频样本合成得到的音频样本训练得到。相较于传统的通过单级模型进行检测的方式，本方案通过多个由合成叠音训练的二分类模型分别检测音频中的人声音频以及人声音频中的叠音音频，提高了叠音检测的准确度。音检测的准确度。音检测的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
叠音检测方法、装置、计算机设备和存储介质

[0001]本申请涉及音频处理
，特别是涉及一种叠音检测方法、装置、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着经济的发展和语音技术的不断进步，语音相关技术在我们生活中的应用也越来越广泛，比如智能客服语音质检分析。在云计算、物联网、大数据等技术的推动下，企业会更加关注呼叫中心运维中的成本控制、风险管控和效能升级；客户需求的多样化和个性化对呼叫中心的热线服务质量也提出了更高要求；语音质检分析就变得尤为重要，坐席违规抢插话是其中一个关键质检项，而当抢插话存在时会存在叠音现象，因此如何对音频中的叠音行为进行检测成为了亟需解决的问题。目前检测音频中的叠音的方式通常是通过单级模型进行识别。然而，通过单级模型进行叠音识别，由于音频中包含的信息过多，会导致识别的准确度下降。
[0003]因此，目前对音频中的叠音检测方法存在识别准确度不高的缺陷。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够提高识别准确度的叠音检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面，本申请提供了一种叠音检测方法，所述方法包括：获取待检测音频及其待检测音频特征；将所述待检测音频特征输入第一二分类模型，由所述第一二分类模型检测所述待检测音频中的人声音频特征；所述第一二分类模型基于第一音频样本训练得到，所述第一音频样本包括人声音频样本；将所述人声音频特征输入第二二分类模型，由所述第二二分类模型检测所...

【技术保护点】

【技术特征摘要】
1.一种叠音检测方法，其特征在于，所述方法包括：获取待检测音频及其待检测音频特征；将所述待检测音频特征输入第一二分类模型，由所述第一二分类模型检测所述待检测音频中的人声音频特征；所述第一二分类模型基于第一音频样本训练得到，所述第一音频样本包括人声音频样本；将所述人声音频特征输入第二二分类模型，由所述第二二分类模型检测所述人声音频特征中的叠音音频特征；所述叠音音频特征表征包含至少两种人声音频的音频特征；所述第二二分类模型基于第二音频样本训练得到；所述第二音频样本基于至少两种人声音频样本合成得到；根据所述叠音音频特征，确定所述待检测音频中的叠音音频。2.根据权利要求1所述的方法，其特征在于，所述获取待检测音频及其待检测音频特征，包括：获取待检测音频；提取所述待检测音频中的梅尔频率倒谱系数，得到所述待检测音频对应的待检测音频特征。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取人声音频样本作为第一音频样本，并根据至少两种人声音频样本生成第二音频样本，获取所述第一音频样本对应的人声音频特征样本和所述第二音频样本对应的第二音频特征样本；获取待训练第一二分类模型和待训练第二二分类模型；将所述第一音频特征样本输入所述待训练第一二分类模型，由所述待训练第一二分类模型检测所述第一音频特征样本中的待训练人声音频特征样本；根据所述待训练人声音频特征样本与所述第一音频特征样本中的人声音频特征样本的比较结果，调整所述第一二分类模型的模型参数，直至满足训练条件时得到训练完成的第一二分类模型；将所述第二音频特征样本输入所述待训练第二二分类模型，由所述待训练第二二分类模型检测所述音频特征样本中的待训练叠音音频特征样本；根据所述待训练叠音音频特征样本与所述第二音频特征样本中的叠音音频特征样本的比较结果，调整所述第二二分类模型的模型参数，直至满足训练条件时得到训练完成的第二二分类模型。4.根据权利要求3所述的方法，其特征在于，所述根据至少两种人声音频样本生成第二音频样本，包括：获取原始人声音频样本；所述原始人声音频样本中包含至少两个说话人对应的人声音频；提取所述原始人声音频样本中每个说话人对应的人声音频，并向每个说话人对应的人声音频添加对应的标识；将相同标识的人声音频进行合并，得到至少两个合并后的人声音频；将第一合并后的人声音频中预设时长的人声音频与第二合并后的人声音频中预设时长的人声音频进行时域线性叠加，得到第二音频样本；所述第一合并后的人声音频的标识
和所述第二合并后的人声音频的标识不同；所述第二音频样本中起始预设时长内和结尾预设时长内包含单个说话人对应的人...

【专利技术属性】
技术研发人员：黄文琦，林全郴，梁凌宇，戴珍，白昱阳，赵翔宇，郭尧，
申请(专利权)人：南方电网数字电网研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人