System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种基于神经网络和特征融合的合成语音检测方法,属于信息安全与人工智能。
技术介绍
1、随着各种基于深度学习的语音合成方法的成熟,最先进的语音合成方法已经能够生成欺骗人耳的高度逼真的声音。由于这些工具的易获取、易使用以及相关法律的不完善等原因,产生了一种名为音频深度伪造的技术,该技术的滥用对国家形象、社会舆论以及公众利益造成了严重威胁,因此开发能够检测合成音频的工具便尤为重要。基于以上背景,合成音频检测成为声学信号处理以及人工智能领域中的重要研究问题,它的主要任务是通过计算,自动预测一段音频是否是通过人工智能工具合成的。
2、鉴于音频深度伪造技术潜在的危害,已经有很多工作致力于检测合成音频。通常来说,合成音频检测方法可分为基于机器学习的方法和基于深度学习的方法。基于机器学习的合成音频检测通常需要人为地手动设计特征,虽然具备较好的可解释性,但是方法的性能很大程度上依赖人工特征,可扩展性较差。基于深度学习的合成语音检测方法能够利用深度神经网络的优势自动提取并学习有用的特征,实现输入与输出间复杂的映射关系,从而拥有良好的性能,因此近年来广泛受到研究人员的重视。但是此前基于深度学习的合成语音检测方法大多针对特定的数据集,普遍没有考虑到方法在跨语言情形下的性能。且存在过度训练的情况,在特定数据集上严重过拟合,降低了对应方法泛化到未知数据的能力。
3、此外,无论是基于机器学习还是基于深度学习的合成音频检测方法往往只利用了音频的声学特征或音频对应的频谱图图像特征,没用充分利用音频包含的丰富信息,因此在检测合
技术实现思路
1、本专利技术的目的在于提供一种基于神经网络和特征融合的合成语音检测方法,以解决现有技术只利用了音频的声学特征或音频对应的频谱图图像特征,没用充分利用音频包含的丰富信息,在检测合成音频时存在不足的缺陷。
2、一种基于神经网络和特征融合的合成语音检测方法,所述方法包括:
3、获取音频待测数据集,对音频待测数据集提取音频的声学特征和对应的频谱图图像特征;
4、将音频的声学特征和对应的频谱图图像特征输入预先训练的合成音频检测模型中,分别得到音频的真实性分数一和音频的真实性分数二;
5、将音频的真实性分数一和音频的真实性分数二加权融合,得到特征信息融合后的音频真实性得分;
6、将得到的真实性得分与预先设定的阈值比较,得到最终音频检测结果;
7、其中,所述合成音频检测模型包括特征到分数模块和图像到分数模块,所述特征到分数模块用于将输入的音频的声学特征输出为音频的真实性分数一,所述图像到分数模块用于将输入的对应的频谱图图像特征输出为音频的真实性分数二。
8、进一步地,所述合成音频检测模型的训练方法包括:
9、获取真实音频数据集和合成音频数据集作为样本集,按预设比例将所述样本集划分为训练集和验证集;
10、对训练集进行数据预处理,提取对应的声学特征、频谱图图像特征;
11、采用样本的声学特征、频谱图图像特征训练初始合成音频检测模型,输出训练结果;对训练结果加权融合得到音频真实性分数;
12、通过音频真实性分数和样本预设标签计算损失,采用梯度下降法来优化训练初始合成音频检测模型,同时在验证集上观察模型的性能;
13、将最终的音频真实性分数和预先设定的阈值比较,得到满足检测结果后,将优化后的初始合成音频检测模型作为合成音频检测模型。
14、进一步地,所述对音频待测数据集提取音频的声学特征的方法包括:
15、通过对音频文件进行预加重、分帧、加窗、应用离散傅里叶变换得到音频的频域表示,计算频域表示内复值信号的平方幅度得到音频的频谱图;
16、对频谱图采用线性滤波器组、离散余弦变换得到线性频率倒谱系数声学特征,得到声学特征。
17、进一步地,所述对音频待测数据集提取音频的声学特征对应的频谱图图像特征的方法包括:
18、通过对音频文件进行预加重、分帧、加窗、应用离散傅里叶变换得到音频的频域表示,计算频域表示内复值信号的平方幅度得到音频的频谱图;
19、将频谱图从振幅刻度转换为分贝刻度后,构建指定像素大小的灰度图图像作为频谱图图像特征。
20、进一步地,所述特征到分数模块包括最大特征图单元、时延神经网络单元、紧密连接时延神经网络单元、转换层、池化层、前馈神经网络层和线性层;线性频率倒谱系数首先通过最大特征图单元,在二维空间上提取特征;
21、通过时延神经网络单元初始化通道数量,再通过多个连续的紧密连接时延神经网络单元学习局部特征,并使用转换层来聚合多阶段信息;再接多个紧密连接时延神经网络单元学习长期依赖,并使用转换层聚合信息;最后通过池化层聚合信息,通过前馈神经网络层、线性层输出真实性分数。
22、进一步地,所述转换层聚合多阶段信息的公式为:
23、dk=dk([d0,d1,…,dk-1])
24、其中d0表示紧密连接时延神经网络单元的输入,dk表示第k层紧密连接时延神经网络单元输出,[·]表示拼接操作,dk(·)表示第k层的非线性变换。
25、进一步地,所述图像到分数模块包括二维卷积层、残差块、最大池化层、展平层、dropout层、全连接层构成;
26、频谱图的灰度图图像首先通过二维卷积层、残差块来充分提取信息;接着通过最大池化层缩小特征图尺寸,降低展平后的特征维数;然后通过展平层展开,经过全连接层进行降维并结合dropout层提高模块的泛化性;最后通过全连接层输出图像角度的真实性分数。
27、进一步地,所述残差块构建信息流的公式为:
28、y=f(x,ω)+x
29、其中x表示输入,ω表示当前层的参数,f(x,ω)表示输入经过当前层非线性变换的输出,y表示当前层的输出。
30、进一步地,所述将音频的真实性分数一和音频的真实性分数二加权融合的公式为:
31、
32、其中f(·)表示加权函数,sf为特征到分数模块输出的音频真实性分数,si为图像到分数模块输出的音频真实性分数,ω为加权系数,threshold为阈值,score表示最终音频真实性得分,h0表示原假设,说明音频是真实的,h1表示备择假设,说明音频是合成的,f(·)函数通过公式f(sf,si;ω)=ω×sf+(1-ω)×si得出最终音频真实性得分,score大于threshold,表示接受h0假设,说明音频是真实的;score小于threshold,表明接受h1假设,说明音频是伪造的。
33、进一步地,所述真实性得分与预先设定的阈值比较的表达式为:
34、
35、其中,threshold表示预先设定的阈值,0表示音频为合成的,1表示音频是真实的,label表示音频的标签。
...
【技术保护点】
1.一种基于神经网络和特征融合的合成语音检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,
3.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述对音频待测数据集提取音频的声学特征的方法包括:
4.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述对音频待测数据集提取音频的声学特征对应的频谱图图像特征的方法包括:
5.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述特征到分数模块包括最大特征图单元、时延神经网络单元、紧密连接时延神经网络单元、转换层、池化层、前馈神经网络层和线性层;
6.根据权利要求5所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述转换层聚合多阶段信息的公式为:
7.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述图像到分数模块包括二维卷积层、残差块、最大池化层、展平层、Dropout层、全连接层构
8.根据权利要求7所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述残差块构建信息流的公式为:
9.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述将音频的真实性分数一和音频的真实性分数二加权融合的公式为:
10.根据权利要求9所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述真实性得分与预先设定的阈值比较的表达式为:
...【技术特征摘要】
1.一种基于神经网络和特征融合的合成语音检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,
3.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述对音频待测数据集提取音频的声学特征的方法包括:
4.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述对音频待测数据集提取音频的声学特征对应的频谱图图像特征的方法包括:
5.根据权利要求1所述的基于神经网络和特征融合的合成语音检测方法,其特征在于,所述特征到分数模块包括最大特征图单元、时延神经网络单元、紧密连接时延神经网络单元、转换层、池化层、前馈神经网络层和线性层;
6.根据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。