当前位置: 首页 > 专利查询>清华大学专利>正文

基于反向知识蒸馏的合成音频检测方法及系统技术方案

技术编号:40076665 阅读:35 留言:0更新日期:2024-01-17 01:28
本发明专利技术提供了一种基于反向知识蒸馏的合成音频检测方法及系统,涉及音频检测技术领域。本发明专利技术中,引入反向知识蒸馏模型,学生模型采用与教师模型反向的残差网络结构,教师模型依次提取待检测音频不同层次的音频特征,多尺度融合模块和单层嵌入模块基于该不同层次的音频特征得到瓶颈信息,将教师模型提取到的合成音频特征表示为对真实音频特征的扰动,禁止合成扰动传播到学生模型,学生模型基于该瓶颈信息进行特征重建,从而可以基于学生模型输出的音频重建特征与教师模型输出的音频特征之间的相似度差异来判断待检测音频的真实性。可见,本发明专利技术提供的基于反向知识蒸馏的合成音频检测方法不依赖于已知规则或特征,可以更好区分真实音频和合成音频。

【技术实现步骤摘要】

本专利技术实施例涉及音频检测,尤其涉及一种基于反向知识蒸馏的合成音频检测方法及系统


技术介绍

1、在深度学习领域,已经存在一些合成音频检测的实现方案,其中一些方案使用了卷积神经网络、循环神经网络或自注意力模型等深度学习结构。这些方案通常依赖于训练数据集,其中包含真实音频和合成音频的样本,以监督方式进行训练。

2、现有的合成音频检测模型通常基于已知的合成算法,合成音频检测模型依赖于已知的特征和规则来识别合成音频。然而,对抗性攻击者不断创新,针对合成音频检测模型开发新的合成算法,这些算法能够绕过已知的特征和规则,制作更具欺骗性的音频。因此,现有技术在面对不断创新的对抗性攻击时表现出较低的鲁棒性,无法准确识别和防御新型的对抗性攻击。具体而言,由于现有的合成音频检测模型在开发时依赖于已知的合成算法和已知的合成特征,新的合成算法的出现时,由于合成音频检测模型缺乏对这些新算法的先验知识,导致检测模型无法适应新技术,检测能力受到限制,不能有效识别和防御新兴的合成音频技术,从而降低了检测准确性。

3、因此,目前亟需一种新的合成音频检测方案。...

【技术保护点】

1.一种基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法包括:

2.根据权利要求1所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程包括:

3.根据权利要求2所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,蒸馏损失的计算公式为:

4.根据权利要求3所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的基于反...

【技术特征摘要】

1.一种基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法应用于合成音频检测系统,所述合成音频检测系统包括:教师模型、多尺度融合模块、单层嵌入模块和学生模型,所述方法包括:

2.根据权利要求1所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述合成音频检测系统中多尺度融合模块、单层嵌入模块和学生模型的训练过程包括:

3.根据权利要求2所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,蒸馏损失的计算公式为:

4.根据权利要求3所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述方法还包括:

5.根据权利要求1所述的基于反向知识蒸馏的合成音频检测方法,其特征在于,所述多尺度融合模块包括:k个卷积子模块、归一化子模块、步长为1的1×1卷积层;每个卷积子模块包括一个或多个步长为2的3×3卷积层,各个卷积子模块分别与教师模型的各个残差块相连接,分别对教师模块的各个残差块输出的不同层次的音频特征进行下采样;k个卷积子模块中每一个卷积子模块均与所述归一化子模块相连接,所述归一化子模块对k个卷积子模块的输出进行具有relu激活的批量归一化,以在...

【专利技术属性】
技术研发人员:陶建华
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1