基于标准化流的音频伪造定位与检测方法技术

技术编号：39254677 阅读：12 留言：0更新日期：2023-10-30 12:06

本申请涉及一种基于标准化流的音频伪造定位与检测方法，通过将音频的多尺度特征提取后，通过标准化流将特征映射到正态分布空间，通过隐空间变量的似然估计来评估音频的异常值，同时使用其梯度来进行伪造定位，为深度合成音频检测提供的清晰的理论背景，增强了深度合成音频检测的可解释性。本发明专利技术通过对音频多尺度特征提取，即能获取音频的全局信息，也能获得音频的局部细微信息，增强了音频伪造检测和定位的准确度，同时仅需要真实音频样本进行训练大幅增加了伪造音频检测的泛化性，鲁棒性强和泛化性强。本发明专利技术通过将负对数似然传播回输入音频，以通过音频信号的梯度进行伪造异常点定位，能够实现音频伪造点定位。能够实现音频伪造点定位。能够实现音频伪造点定位。

全部详细技术资料下载

【技术实现步骤摘要】
基于标准化流的音频伪造定位与检测方法

[0001]本公开涉及音频检测
，尤其涉及一种基于标准化流的音频伪造定位与检测方法、装置和电子设备。

技术介绍

[0002]语音合成技术是利用电子计算机或其他设备来模拟人类说话的技术。它主要包括两种技术路线：文本到语音和语音转换。语音伪造则是语音合成的一种应用方向，其生成结果形式与语音合成相似。然而，语音伪造有更加明确的应用目标和需求导向。因此，语音合成系统是支撑语音伪造技术的基础。
[0003]语音伪造检测技术的基本思路是通过寻找伪造语音与真实语音之间的特征差异来实现。典型的伪造语音检测系统通常由前端和后端两部分组成。前端负责分析语音信号并提取具有区分性的特征，后端则通过分类判断语音是真实语音还是伪造语音。
[0004]现今语音合成技术发展迅速，合成效果逼真，手段众多，不同算法伪造的语音具有不同的伪造特征。音频伪造检测模型在训练时难以知道后续会有哪些音频伪造类型，缺少可用于训练的各种类型伪造音频示例，比如公开号CN202211437338.4所提供的一种虚假语音的识别方法、装置、电子设备及存储介质。
[0005]现今的深度合成音频检测，往往直接将音频提取特征然后送入分类网络中，缺乏对伪造信息检测的鲁棒性、泛化性和可解释性，因此一般存在如下技术缺陷：
[0006]1、音频仅仅依靠提取单一尺度的特征，无法对伪造中的细微变化进行精准的检测和定位，因此鲁棒性较差；
[0007]2、不同的伪造算法伪造的音频具有不同的伪造特征差异，传统的深度音...

【技术保护点】

【技术特征摘要】
1.一种基于标准化流的音频伪造定位与检测方法，其特征在于，包括如下步骤：对待测音频进行多次卷积池化处理，得到若干音频特征并进行多尺度特征融合，得到所述待测音频的多尺度融合特征；采用基于标准化流的特征映射方法，将所述待测音频的多尺度融合特征分布映射到标准正态分布空间；通过隐空间变量的似然估计来评估所述待测音频的异常值，同时使用其梯度来进行伪造定位。2.根据权利要求1所述的一种基于标准化流的音频伪造定位与检测方法，其特征在于，对待测音频进行多次卷积池化处理，得到若干音频特征并进行多尺度特征融合，得到所述待测音频的多尺度融合特征，包括：将所述待测音频输入预设的卷积网络；利用所述卷积网络，对所述待测音频进行卷积池化，得到初始的音频特征；基于上述步骤，对上一次得到的所述音频特征进行上采样，多次迭代得到若干不同尺度的所述音频特征；将若干不同尺度的所述音频特征进行融合，得到所述待测音频的多尺度融合特征。3.根据权利要求2所述的一种基于标准化流的音频伪造定位与检测方法，其特征在于，所述卷积网络为一维卷积网络。4.根据权利要求1所述的一种基于标准化流的音频伪造定位与检测方法，其特征在于，采用基于标准化流的特征映射方法，将所述待测音频的多尺度融合特征分布映射到标准正态分布空间，包括：设定标准化流：f：X
→
Z；利用所述标准化流将所述将待测音频的特征分布x∈p
X
(x)，投影到具有双向可逆隐射的隐藏变量z∈p
Z
(z)；定义隐藏变量在X上的模型分布：通过以下方式计算来自p
Z
(z)的音频特征的对数似然估计：其中z～N(0，I)，上述的分式为双射可逆流模型雅可比行列式，z＝f
θ
(x)并且θ是流模型的参数。5.根据权利要求4所述的一种基于标准化流的音频伪造...

【专利技术属性】
技术研发人员：郑威，云剑，凌霞，郑晓玲，周凡棣，海涵，辛鑫，刘澎，
申请(专利权)人：中国信息通信研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人