【技术实现步骤摘要】
基于跨领域自适应的深度伪造语音检测方法
[0001]本专利技术涉及语音检测
,特别涉及一种基于跨领域自适应的深度伪造语音检测方法。
技术介绍
[0002]深度伪造指的是包含视频伪造、音频伪造和文本伪造等多模态的欺骗技术。随着深度学习技术的迅速发展,深度伪造的“低门槛、高效率、高质量”的特性使之在日常生活中被广泛使用,如影视剧后期换脸换声、智能客服的语音回复等。然而,深度伪造技术的落地和应用也伴生着严重的技术滥用问题。其隐患集中在针对目标人的视频和音频合成,从而盗用他人身份以假乱真。伪造音视频可被滥用至抹黑公众人物、金融诈骗甚至干扰军事指挥等一系列恶意行为中。
[0003]由于深度伪造技术潜在的威胁,国内外对其都非常重视和警惕。在语音深伪检测领域,目前的检测手段主要是通过构建深度神经网络以寻找伪造算法遗留在音频中的伪造痕迹来进行鉴别,这些伪造检测模型通常需要大量的真伪数据以进行监督式训练。
[0004]在语音检测领域,相关技术提供了大量具有一定泛化性的语音真伪检测模型来应对未知语种音频的伪造攻击。然而,这 ...
【技术保护点】
【技术特征摘要】
1.一种基于跨领域自适应的深度伪造语音检测方法,其特征在于,所述方法包括:S1:获取跨语种音频数据集,所述跨语种音频数据集包括源语种对应的第一伪造音频数据及第一真实音频数据,和目标语种对应的第二伪造音频数据及第二真实音频数据;S2:从所述跨语种音频数据集随机抽取的N个音频数据输入至神经网络模型的特征提取器进行音频特征提取,得到N个音频特征,N为正整数,所述N个音频数据包括至少一个第一伪造音频数据、至少一个第一真实音频数据、至少一个第二伪造音频数据和至少一个第二真实音频数据;S3:将所述N个音频特征输入至所述神经网络模型的真伪分类器分别进行真伪类别的确定,并计算得到真伪分类损失参数,所述真伪分类损失参数用于表示所述真伪分类器预测所得真伪类别与实际真伪标签之间的差异;S4:根据所述N个音频特征,采用跨领域自适应方法计算得到源语种与目标语种间的语种领域损失参数,所述语种领域损失参数用于表示源语种与目标语种间的特征差异;S5:根据所述真伪分类损失参数和所述语种领域损失参数,以减小总损失为优化目标,采用优化算法对所述神经网络模型进行对应参数优化及更新;S6:重复执行步骤S2
‑
S5预设轮次后,得到训练好的深度伪造语音检测模型,采用所述深度伪造语音检测模型对目标语种的待测音频数据进行真伪检测。2.根据权利要求1所述的方法,其特征在于,步骤S4包括:将所述N个音频特征输入至所述神经网络模型的语种分类器分别进行语种类别的确定,并计算得到语种分类损失参数loss
D
,所述语种分类损失参数loss
D
用于表示语种类别与实际语种标签之间的差异;或,将所述N个音频特征输入至所述神经网络模型的差异测量器进行源语种与目标语种的语种特征间差异测量,并计算得到语种间特征差异损失参数loss
MMD
,所述语种间特征差异损失参数loss
MMD
用于表示源语种语音特征分布与目标语种语音特征分布间的不相似程度。3.根据权利要求1所述的方法,其特征在于,步骤S4包括:将所述N个音频特征输入至所述神经网络模型的语种分类器分别进行语种类别的确定,并计算得到语种分类损失参数loss
D
,所述语种分类损失参数loss
D
用于表示语种类别与实际语种标签之间的差异;或,将所述N个音频特征输入至所述神经网络模型的差异测量器进行源语种与目标语种的语种特征间差异测量,并计算得到语种间特征差异损失参数loss
MMD
,所述语种间特征差异损失参数loss
MMD
用于表示源语种语音特征分布与目标语种语音特征分布间的不相似程度。4.根据权利要求1所述的方法,其特征在于,所述跨语种音频数据集中,所述源语种对应的第一伪造音频数据数量及第一真实音频数据数量,远大于所述目标语种对应的第二伪造音频数据数量及第二真实音频数据数量。5.根据权利要求1所述的方法,其特征在于,所述N个音频数据中,源语种对应的音频数据数量与目标语种对应的音频数据数量相等,且各个语种对应的音频数据中,伪造音频数据数量与真实音频数据数量的比值固定。6.根据权利要求1所述的方法,其特征在于,所述跨语种音频数据集中生成所述第一伪造音频数据所对应的伪造算法,包括有生成所述第二伪造音频数据所对应的伪造算法。7.根据权利要求1所述的方法,其特征在于,步骤S2中所述N...
【专利技术属性】
技术研发人员:巴钟杰,温晴,程鹏,王宇炜,林峰,卢立,刘振广,任奎,
申请(专利权)人:浙江大学嘉兴研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。