合成音频深度检测方法、装置、设备和介质制造方法及图纸

技术编号：39438123 阅读：9 留言：0更新日期：2023-11-19 16:21

本发明专利技术提供一种合成音频深度检测方法、装置、设备和介质，涉及合成音频检测技术领域。其中，这种合成音频检测方法包含步骤S1至步骤S6。S1、获取待分辨音频。S2、根据待分辨音频，通过语音识别模型获取内容文本。S3、根据内容文本，通过情感分析模型获取情感特征。S4、根据待分辨音频，通过音频预训练知识特征提取模型获取音频深度真伪特征。S5、融合情感特征和音频深度真伪特征，获取深层可信度鲁棒特征。S6、根据深层可信度鲁棒特征，通过音频深度合成检测模型获取待分辨音频的真假类型。本发明专利技术的音频深度合成检测方法在音频深度真伪特征中融合情感特征，大大提高合成语音的检测精度，能够有效鉴别虚假语音，具有很好的实际意义。具有很好的实际意义。具有很好的实际意义。

全部详细技术资料下载

【技术实现步骤摘要】
合成音频深度检测方法、装置、设备和介质

[0001]本专利技术涉及合成音频检测
，具体而言，涉及一种合成音频深度检测方法、装置、设备和介质。

技术介绍

[0002]近年来，随着深度学习的快速发展，语音合成技术也日趋成熟，已能生成与真人相媲美的语音。在人机交互、智能家居、娱乐、教育等领域有广泛的应用。但是，不良用途的语音合成技术也给人民和社会带来危害，与之对应的语音真假鉴别技术也受到大家的广泛关注。
[0003]深度合成音频检测技术是一种利用人工智能技术来检测和识别合成音频的方法。它主要通过使用深度神经网络来提取音频中的特征，并利用这些特征来区分真实音频和合成音频。这种技术可以帮助我们准确识别出合成音频，从而帮助我们确保网络上流传的音频信息的真实性。
[0004]在先技术中，深度合成音频检测技术主要通过声学特征和音素时长特征对语音进行判别。常用的声学特征有梅尔倒谱系数MFCC,线性预测系数LFCC,常数Q倒谱系数CQCC等。现有的深度合成音频检测技术存在准确率低和泛化性不足的问题。
[0005]有鉴于此，申请人在研究了现有的技术后特提出本申请。

技术实现思路

[0006]本专利技术提供了一种合成音频深度检测方法、装置、设备和介质，以改善上述技术问题中的至少一个。
[0007]第一方面、
[0008]本专利技术实施例提供了一种合成音频深度检测方法，其包含步骤S1至步骤S6。
[0009]S1、获取待分辨音频。
[0010]S2、根据待分辨音频，...

【技术保护点】

【技术特征摘要】
1.一种合成音频深度检测方法，其特征在于，包含：获取待分辨音频；根据所述待分辨音频，通过语音识别模型获取内容文本；根据所述内容文本，通过情感分析模型获取情感特征；根据所述待分辨音频，通过音频预训练知识特征提取模型获取音频深度真伪特征；融合所述情感特征和所述音频深度真伪特征，获取深层可信度鲁棒特征；根据所述深层可信度鲁棒特征，通过音频深度合成检测模型获取待分辨音频的真假类型。2.根据权利要求1所述的合成音频深度检测方法，其特征在于，根据所述内容文本，通过情感分析模型获取情感特征，具体包括：根据所述内容文本，通过词嵌入模型，获取词向量；根据所述内容文本，通过语音嵌入模型，获取音向量；融合所述词向量和所述音向量，获取融合向量；将所述融合向量输入所述情感分析模型，获取所述情感特征。3.根据权利要求2所述的合成音频深度检测方法，其特征在于，所述情感分析模型为第一自注意力编码模型；所述第一自注意力编码模型包含3层第一自注意力网络；所述音频预训练知识特征提取模型为第二自注意力编码模型；所述第二自注意力编码模型包括12层第二自注意力网络；所述第一自注意力网络和所述第二自注意力网络的网络结构相同；所述第二自注意力网络包括依次连接的第一Multi
‑
Head Self
‑
Attention多头自注意力层、第一Add & LayerNorm残差和标准化层、第一Feed Forward全连接层，以及第二Add & LayerNorm残差和标准化层。4.根据权利要求1所述的合成音频深度检测方法，其特征在于，融合所述情感特征和所述音频深度真伪特征，获取深层可信度鲁棒特征，具体包括：根...

【专利技术属性】
技术研发人员：温正棋，王小鹏，
申请(专利权)人：中科极限元杭州智能科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人