一种基于神经网络和特征融合的合成语音检测方法技术

技术编号：40104422 阅读：29 留言：0更新日期：2024-01-23 18:12

本发明专利技术公开了一种基于神经网络和特征融合的合成语音检测方法，所述方法包括：获取音频待测数据集，对音频待测数据集提取音频的声学特征和对应的频谱图图像特征；将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中，分别得到音频的真实性分数一和音频的真实性分数二；将音频的真实性分数一和音频的真实性分数二加权融合，得到特征信息融合后的音频真实性得分；将得到的特征信息融合后的真实性得分与预先设定的阈值比较得到最终音频检测结果；本发明专利技术巧妙融合了声学特征和频谱图图像信息进行合成语音检测，具有更好的稳定性和泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于神经网络和特征融合的合成语音检测方法，属于信息安全与人工智能。

技术介绍

1、随着各种基于深度学习的语音合成方法的成熟，最先进的语音合成方法已经能够生成欺骗人耳的高度逼真的声音。由于这些工具的易获取、易使用以及相关法律的不完善等原因，产生了一种名为音频深度伪造的技术，该技术的滥用对国家形象、社会舆论以及公众利益造成了严重威胁，因此开发能够检测合成音频的工具便尤为重要。基于以上背景，合成音频检测成为声学信号处理以及人工智能领域中的重要研究问题，它的主要任务是通过计算，自动预测一段音频是否是通过人工智能工具合成的。

2、鉴于音频深度伪造技术潜在的危害，已经有很多工作致力于检测合成音频。通常来说，合成音频检测方法可分为基于机器学习的方法和基于深度学习的方法。基于机器学习的合成音频检测通常需要人为地手动设计特征，虽然具备较好的可解释性，但是方法的性能很大程度上依赖人工特征，可扩展性较差。基于深度学习的合成语音检测方法能够利用深度神经网络的优势自动提取并学习有用的特征，实现输入与输出间复杂的映射关系，从而拥有良好...

【技术保护点】

1.一种基于神经网络和特征融合的合成语音检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法，其特征在于，

3.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法，其特征在于，所述对音频待测数据集提取音频的声学特征的方法包括：

4.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法，其特征在于，所述对音频待测数据集提取音频的声学特征对应的频谱图图像特征的方法包括：

5.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法，其特征在于，所述特征到分数模块包括最大特征...

【技术特征摘要】

1.一种基于神经网络和特征融合的合成语音检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法，其特征在于，

3.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法，其特征在于，所述对音频待测数据集提取音频的声学特征的方法包括：

5.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法，其特征在于，所述特征到分数模块包括最大特征图单元、时延神经网络单元、紧密连接时延神经网络单元、转换层、池化层、前馈神经网络层和线性层；

6.根据...

【专利技术属性】
技术研发人员：徐小龙，刘畅，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人