深度合成音频检测系统及方法技术方案

技术编号:39121839 阅读:11 留言:0更新日期:2023-10-23 14:46
本发明专利技术公开一种深度合成音频检测系统及方法,包括:特征提取模块,用于提取音频的特征;所述语音增强模块,用于对音频进行噪声抑制:所述注意力融合模块,与语音增强模块相连接,用于语音增强前后的音频进行注意力权重融合;知识蒸馏模块,与注意力融合模块相连接,用于并行的大参数量判别器、轻量级判别器对音频进行检测区分真伪,并通过知识蒸馏迁移大参数量判别器的知识到轻量级判别器上。本发明专利技术既提升了噪声场景下的检测性能,又在噪声场景下仍然保持鲁棒性。然保持鲁棒性。然保持鲁棒性。

【技术实现步骤摘要】
深度合成音频检测系统及方法


[0001]本专利技术涉及深度合成音频检测
,具体涉及深度合成音频检测系统及方法。

技术介绍

[0002]经检索,中国专利CN113488073A公开了“一种基于多特征融合的伪造语音检测方法及装置”,其通过提取语音中的多种特征,通过特征缩放和特征平衡矩阵将提取的特征进行融合获得融合特征,融合特征尽可能的融合了语音中的特征,然后利用融合特征训练基于长短期记忆网络的伪造语音检测模型,实现对各种伪造语音方法生成的伪造语音的检测。
[0003]但是,现有技术依然存在以下问题,目前深度合成音频检测在无噪场景下的性能已较为完善,但应对噪声干扰能力不足,且信噪比越低越明显。一方面,现今相关的技术研究多集中在数据增广方面,会明显提高训练成本,另一方面,有部分使用语音增强来进行降噪的研究,但在失真问题对下游任务的干扰方面没有考虑更好的解决方法。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种深度合成音频检测系统及方法,既提升了噪声场景下的检测性能,又在噪声场景下仍然保持鲁棒性。
[0005]为实现上述目的,本专利技术提供了一种合成音频检测系统,包括:
[0006]特征提取模块,用于提取音频的特征;
[0007]所述语音增强模块,用于对音频进行噪声抑制;
[0008]所述注意力融合模块,与语音增强模块相连接,用于语音增强前后的音频进行注意力权重融合;
[0009]知识蒸馏模块,与注意力融合模块相连接,用于并行的大参数量判别器、轻量级判别器对音频进行检测区分真伪,并通过知识蒸馏迁移大参数量判别器的知识到轻量级判别器上。
[0010]进一步的,所述注意力融合模块采用语音增强模块的输出特征和原始音频的输入特征相减得到含噪特征,计算含噪特征与去噪特征两者之间的信噪比,并将得到的信噪比送入两层注意力网络,得到自相关矩阵,根据所述自相关矩阵进行非线性激活,作为原始含噪特征的权重与去噪特征加权融合。
[0011]进一步的,所述注意力网络为时间注意力网络、频率注意力网络或通道注意力网络。
[0012]进一步的,所述语音增强模块采用CRNN、CNN或Transformer网络结构进行训练。
[0013]进一步的,所述知识蒸馏模块的损失函数包括L1损失、KL散度损失。
[0014]进一步的,在对音频进行特征提取时,对音频进行预处理得到音频的幅值谱。
[0015]进一步的,预处理包括预加重、分帧、加窗、短时傅里叶变换。
[0016]本专利技术还提供了一种利用合成音频检测系统的检测方法,其包括以下步骤:
[0017]S1:获取无噪音频、含噪音频;
[0018]S2:对含噪音频进行语音增强;
[0019]S3:引入注意力机制,将语音增强前后的音频进行注意力权重融合;
[0020]在训练时,采用无噪音频并行训练大参数量判别器,通过知识蒸馏迁移大参数量判别器的知识到轻量级判别器,
[0021]在推理时,仅通过轻量级判别器来进行判别;
[0022]S4:大参数量判别器、轻量级判别器输出真伪标签。
[0023]综上所述,本专利技术主要具有以下有益效果:
[0024]通过利用无噪音频并行训练大参数量判别器,无噪音频训练的大参数量判别器,对轻量级判别器的特征以及输出进行约束,通过知识蒸馏迁移大参数量判别器的知识到轻量级判别器,学习大参数量判别器的判别能力,提升噪声场景下的检测性能,还可以结合语音增强技术和时频注意力融合机制,将增强前后语音进行注意力权重融合,在噪声场景下仍然保持鲁棒性。
附图说明
[0025]图1是本专利技术的合成音频检测系统的结构示意图;
[0026]图2是本专利技术的合成音频检测系统的训练过程示意图;
[0027]图3是本专利技术的合成音频检测系统的推理过程示意图;
[0028]图4是本专利技术的注意力融合模块的结构示意图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]实施例一
[0031]一种深度合成音频检测系统,包括:
[0032]特征提取模块,用于提取音频的特征;
[0033]所述语音增强模块,用于对音频进行噪声抑制;
[0034]语音增强模块主要负责对音频进行噪声抑制,用于后续的音频检测。在该模块中,需要首先进行预加重、分帧、加窗,再采取短时傅里叶变换得到音频的幅值谱作为输入特征;
[0035]语音增强模块采用基于循环卷积网络的结构来训练,编码器包括5层卷积,中间层为两层BiLSTM(Bi

directional Long Short

Term Memory,双向长短期记忆),解码器为5层相对编码器的逆向卷积。经过循环卷积网络进行音频重建,得到降噪后的幅值谱;
[0036]在语音增强后,由于重建音频过平滑,与原始语音相比丢失部分信息,称之为语音失真,失真问题会引入不可见的攻击,导致下游检测任务的性能变差,有必要通过第二模块来弥补失真;
[0037]所述注意力融合模块,与语音增强模块相连接,用于语音增强前后的音频进行注意力权重融合;
[0038]具体的,所述注意力融合模块采用语音增强模块的输出特征和原始音频的输入特征相减得到含噪特征,计算含噪特征与去噪特征两者之间的信噪比,并将得到的信噪比送入两层注意力网络,得到自相关矩阵,根据所述自相关矩阵进行非线性激活,作为原始含噪特征的权重与去噪特征加权融合。
[0039]注意力融合模块主要负责对音频进行注意力融合,有效解决失真问题。注意力融合模块采用语音增强模块的输出幅值谱和原始音频的幅值谱为输入,需要相减得到噪声部分的能量,计算与去噪幅值谱特征两者之间的信噪比。
[0040]由于信噪比反映了噪声所占的比重,信噪比越高则代表受噪声干扰越小。
[0041]考虑利用此先验知识,将得到的信噪比送入两层注意力网络,对时间维度和频率维度分别卷积,得到自相关矩阵。根据自相关矩阵进行非线性激活,作为原始含噪特征的权重,与去噪特征加权融合。
[0042]特征具有噪声不变性:采用语音增强技术与注意力机制的结合,得到降噪后的特征,且经过神经网络学习弥补了语音失真,是具有噪声不变性的特征,更有通用性。
[0043]知识蒸馏模块,与注意力融合模块相连接,用于并行的大参数量判别器、轻量级判别器对音频进行检测区分真伪,并通过知识蒸馏迁移大参数量判别器的知识到轻量级判别器上。
[0044]知识蒸馏模块主要负责并行的教师学生模型对音频进行检测,区分真伪。检测的损失总共分为3个部分:教师模型的损失,学生模型的损本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种深度合成音频检测系统,其特征在于:包括:特征提取模块,用于提取音频的特征;所述语音增强模块,用于对音频进行噪声抑制;所述注意力融合模块,与语音增强模块相连接,用于语音增强前后的音频进行注意力权重融合;知识蒸馏模块,与注意力融合模块相连接,用于并行的大参数量判别器、轻量级判别器对音频进行检测区分真伪,并通过知识蒸馏迁移大参数量判别器的知识到轻量级判别器上。2.根据权利要求1所述的深度合成音频检测系统,其特征在于:所述注意力融合模块采用语音增强模块的输出特征和原始音频的输入特征相减得到含噪特征,计算含噪特征与去噪特征两者之间的信噪比,并将得到的信噪比送入两层注意力网络,得到自相关矩阵,根据所述自相关矩阵进行非线性激活,作为原始含噪特征的权重与去噪特征加权融合。3.根据权利要求2所述的深度合成音频检测系统,其特征在于:所述注意力网络为时间注意力网络、频率注意力网络、空间注意力网络或通道注意力网络。4.根据权利要求1所述的深度合成音频检...

【专利技术属性】
技术研发人员:温正棋王小鹏
申请(专利权)人:中科极限元杭州智能科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1