基于标准化流的音频伪造定位与检测方法技术

技术编号:39254677 阅读:12 留言:0更新日期:2023-10-30 12:06
本申请涉及一种基于标准化流的音频伪造定位与检测方法,通过将音频的多尺度特征提取后,通过标准化流将特征映射到正态分布空间,通过隐空间变量的似然估计来评估音频的异常值,同时使用其梯度来进行伪造定位,为深度合成音频检测提供的清晰的理论背景,增强了深度合成音频检测的可解释性。本发明专利技术通过对音频多尺度特征提取,即能获取音频的全局信息,也能获得音频的局部细微信息,增强了音频伪造检测和定位的准确度,同时仅需要真实音频样本进行训练大幅增加了伪造音频检测的泛化性,鲁棒性强和泛化性强。本发明专利技术通过将负对数似然传播回输入音频,以通过音频信号的梯度进行伪造异常点定位,能够实现音频伪造点定位。能够实现音频伪造点定位。能够实现音频伪造点定位。

【技术实现步骤摘要】
基于标准化流的音频伪造定位与检测方法


[0001]本公开涉及音频检测
,尤其涉及一种基于标准化流的音频伪造定位与检测方法、装置和电子设备。

技术介绍

[0002]语音合成技术是利用电子计算机或其他设备来模拟人类说话的技术。它主要包括两种技术路线:文本到语音和语音转换。语音伪造则是语音合成的一种应用方向,其生成结果形式与语音合成相似。然而,语音伪造有更加明确的应用目标和需求导向。因此,语音合成系统是支撑语音伪造技术的基础。
[0003]语音伪造检测技术的基本思路是通过寻找伪造语音与真实语音之间的特征差异来实现。典型的伪造语音检测系统通常由前端和后端两部分组成。前端负责分析语音信号并提取具有区分性的特征,后端则通过分类判断语音是真实语音还是伪造语音。
[0004]现今语音合成技术发展迅速,合成效果逼真,手段众多,不同算法伪造的语音具有不同的伪造特征。音频伪造检测模型在训练时难以知道后续会有哪些音频伪造类型,缺少可用于训练的各种类型伪造音频示例,比如公开号CN202211437338.4所提供的一种虚假语音的识别方法、装置、电子设备及存储介质。
[0005]现今的深度合成音频检测,往往直接将音频提取特征然后送入分类网络中,缺乏对伪造信息检测的鲁棒性、泛化性和可解释性,因此一般存在如下技术缺陷:
[0006]1、音频仅仅依靠提取单一尺度的特征,无法对伪造中的细微变化进行精准的检测和定位,因此鲁棒性较差;
[0007]2、不同的伪造算法伪造的音频具有不同的伪造特征差异,传统的深度音频伪造检测模型往往需要输入通过各种伪造手段进行伪造的音频进行训练,对于未见过的伪造类型判断能力较差,因此泛化性较差;
[0008]3、传统的深度音频伪造检测模型通过模型提取特征后往往直接送入分类网络中,难以确定模型的判断依据,可解释性差;
[0009]4、传统的深度音频伪造检测模型在模型训练时,需要进行类别标注的伪造时间标注才能进行伪造类别判断和伪造地点定位,数据标注需要耗费大量的人力。

技术实现思路

[0010]为了解决上述问题,本申请提出一种基于标准化流的音频伪造定位与检测方法、装置和电子设备。
[0011]本申请一方面,提出一种基于标准化流的音频伪造定位与检测方法,包括如下步骤:
[0012]对待测音频进行多次卷积池化处理,得到若干音频特征并进行多尺度特征融合,得到所述待测音频的多尺度融合特征;
[0013]采用基于标准化流的特征映射方法,将所述待测音频的多尺度融合特征分布映射
到标准正态分布空间;
[0014]通过隐空间变量的似然估计来评估所述待测音频的异常值,同时使用其梯度来进行伪造定位。
[0015]作为本申请的一可选实施方案,可选地,对待测音频进行多次卷积池化处理,得到若干音频特征并进行多尺度特征融合,得到所述待测音频的多尺度融合特征,包括:
[0016]将所述待测音频输入预设的卷积网络;
[0017]利用所述卷积网络,对所述待测音频进行卷积池化,得到初始的音频特征;
[0018]基于上述步骤,对上一次得到的所述音频特征进行上采样,多次迭代得到若干不同尺度的所述音频特征;
[0019]将若干不同尺度的所述音频特征进行融合,得到所述待测音频的多尺度融合特征。
[0020]作为本申请的一可选实施方案,可选地,所述卷积网络为一维卷积网络。
[0021]作为本申请的一可选实施方案,可选地,采用基于标准化流的特征映射方法,将所述待测音频的多尺度融合特征分布映射到标准正态分布空间,包括:
[0022]设定标准化流:f:X

Z;
[0023]利用所述标准化流将所述将待测音频的特征分布x∈p
X
(x),投影到具有双向可逆隐射的隐藏变量z∈p
Z
(z);
[0024]定义隐藏变量在X上的模型分布:
[0025][0026]通过以下方式计算来自p
Z
(z)的音频特征的对数似然估计:
[0027][0028]其中z~N(0,I),上述的分式为双射可逆流模型雅可比行列式,z=f
θ
(x)并且θ是流模型的参数。
[0029]作为本申请的一可选实施方案,可选地,通过隐空间变量的似然估计来评估所述待测音频的异常值,包括:
[0030]获取所述似然估计;
[0031]使用音频的多尺度融合特征T
i
(x)∈T的对数似然的期望,作为异常分数s(x):
[0032][0033]其中,f
NF
表示标准化流的映射,T表示不同层级的特征抽取,当异常分数s(x)高于阈值α时,则所述待测音频被归为伪造音频。
[0034]作为本申请的一可选实施方案,可选地,通过隐空间变量的似然估计来评估所述待测音频的异常值,还包括:
[0035]将音频伪造检测表示为:
[0036][0037]当D(x)=1时候代表该音频存在异常,为伪造音频。
[0038]作为本申请的一可选实施方案,可选地,使用梯度来进行伪造定位,包括:
[0039]将所述似然估计的负对数似然L传播回音频输入x,并计算音频信号的梯度
[0040]梯度表示音频帧对音频异常的影响程度,基于影响程度确定满足影响程度的音频帧,以此定位音频伪造区域。
[0041]本申请另一方面,提出一种实现所述基于标准化流的音频伪造定位与检测方法的装置,包括:
[0042]音频多尺度特征提取融合模块,用于对待测音频进行多次卷积池化处理,得到若干音频特征并进行多尺度特征融合,得到所述待测音频的多尺度融合特征;
[0043]基于标准化流的特征映射模块,用于采用基于标准化流的特征映射方法,将所述待测音频的多尺度融合特征分布映射到标准正态分布空间;
[0044]音频伪造检测判断与定位模块,用于通过隐空间变量的似然估计来评估所述待测音频的异常值,同时使用其梯度来进行伪造定位。
[0045]本申请另一方面,还提出一种电子设备,包括:
[0046]处理器;
[0047]用于存储处理器可执行指令的存储器;
[0048]其中,所述处理器被配置为执行所述可执行指令时实现所述的一种基于标准化流的音频伪造定位与检测方法。
[0049]本专利技术的技术效果:
[0050]本申请通过将音频的多尺度特征提取后,通过标准化流将特征映射到正态分布空间,通过隐空间变量的似然估计来评估音频的异常值,同时使用其梯度来进行伪造定位,为深度合成音频检测提供的清晰的理论背景,增强了深度合成音频检测的可解释性。本专利技术通过对音频多尺度特征提取,即能获取音频的全局信息,也能获得音频的局部细微信息,增强了音频伪造检测和定位的准确度,同时仅需要真实音频样本进行训练大幅增加了伪造音频检测的泛化性,鲁棒性强和泛化性强。本专利技术通过将负对数似然传播回输入音频,以通过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标准化流的音频伪造定位与检测方法,其特征在于,包括如下步骤:对待测音频进行多次卷积池化处理,得到若干音频特征并进行多尺度特征融合,得到所述待测音频的多尺度融合特征;采用基于标准化流的特征映射方法,将所述待测音频的多尺度融合特征分布映射到标准正态分布空间;通过隐空间变量的似然估计来评估所述待测音频的异常值,同时使用其梯度来进行伪造定位。2.根据权利要求1所述的一种基于标准化流的音频伪造定位与检测方法,其特征在于,对待测音频进行多次卷积池化处理,得到若干音频特征并进行多尺度特征融合,得到所述待测音频的多尺度融合特征,包括:将所述待测音频输入预设的卷积网络;利用所述卷积网络,对所述待测音频进行卷积池化,得到初始的音频特征;基于上述步骤,对上一次得到的所述音频特征进行上采样,多次迭代得到若干不同尺度的所述音频特征;将若干不同尺度的所述音频特征进行融合,得到所述待测音频的多尺度融合特征。3.根据权利要求2所述的一种基于标准化流的音频伪造定位与检测方法,其特征在于,所述卷积网络为一维卷积网络。4.根据权利要求1所述的一种基于标准化流的音频伪造定位与检测方法,其特征在于,采用基于标准化流的特征映射方法,将所述待测音频的多尺度融合特征分布映射到标准正态分布空间,包括:设定标准化流:f:X

Z;利用所述标准化流将所述将待测音频的特征分布x∈p
X
(x),投影到具有双向可逆隐射的隐藏变量z∈p
Z
(z);定义隐藏变量在X上的模型分布:通过以下方式计算来自p
Z
(z)的音频特征的对数似然估计:其中z~N(0,I),上述的分式为双射可逆流模型雅可比行列式,z=f
θ
(x)并且θ是流模型的参数。5.根据权利要求4所述的一种基于标准化流的音频伪造...

【专利技术属性】
技术研发人员:郑威云剑凌霞郑晓玲周凡棣海涵辛鑫刘澎
申请(专利权)人:中国信息通信研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1