基于单分类多尺度残差网络的语音鉴伪方法及系统技术方案

技术编号:36205248 阅读:48 留言:0更新日期:2023-01-04 12:00
本发明专利技术公开了基于单分类多尺度残差网络的语音鉴伪方法及系统;其中所述方法,包括:获取待鉴别的语音数据;对语音数据进行分帧加窗处理;对分帧加窗处理后的语音数据进行特征提取操作;将提取的特征输入到训练后的多尺度残差神经网络模型中,生成置信度分数,根据置信度分数确定待鉴别的语音数据是真实语音还是伪造语音;其中,训练后的多尺度残差神经网络模型,使用单分类Softmax损失函数进行训练,学习一个特征空间,压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音。余量以分离嵌入空间中的伪造语音。余量以分离嵌入空间中的伪造语音。

【技术实现步骤摘要】
基于单分类多尺度残差网络的语音鉴伪方法及系统


[0001]本专利技术涉及语音检测和深度学习
,特别是涉及基于单分类多尺度残差网络的语音鉴伪方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]近年来,在司法取证、新闻报道、科学研究等领域中频繁出现音频篡改的事件,严重危害了音频文件的安全应用。研究语音伪造技术,保障数据的真实性和完整性,对语音认证系统安全、司法取证、社会稳定等具有重要意义。人类的声音可以用来验证说话人的身份,自动说话人验证系统可能会被伪造攻击所欺骗,例如模仿(模仿或双胞胎)、重放(预先录制的音频)、文本到语音(将文本转换为口语单词)和语音转换(将语音从源说话人转换为目标说话人)。
[0004]许多现有的神经网络结构已经被应用于设计对抗伪造攻击的强有力的对抗措施,例如轻型卷积神经网络(LCNN)和残差神经网络(ResNet)。这些模型在时域和频域建模方面表现出很强的能力,并且在捕获欺骗线索方面取得了很好的性能。基于残差神经网络和轻型卷积神经网络的系统主要有两个维度来控制模型的容量,即宽度和深度。但是简单地增加宽度和深度对于提高模型的容量是无效的。具体而言,由于反电子欺骗对策的开发需要对看不见的电子欺骗攻击的高度概括,由于大量的参数,仅增加宽度和深度很容易导致过拟合。

技术实现思路

[0005]针对训练数据和测试数据之间特征分布不匹配以及残差网络中层数增加导致的过拟合问题,提供了基于单分类多尺度残差网络的语音鉴伪方法及系统,以提高语音伪造检测技术的准确率和泛化能力。
[0006]第一方面,本专利技术提供了基于单分类多尺度残差网络的语音鉴伪方法;
[0007]基于单分类多尺度残差网络的语音鉴伪方法,包括:
[0008]获取待鉴别的语音数据;
[0009]对语音数据进行分帧加窗处理;
[0010]对分帧加窗处理后的语音数据进行特征提取操作;
[0011]将提取的特征输入到训练后的多尺度残差神经网络模型中,生成置信度分数,根据置信度分数确定待鉴别的语音数据是真实语音还是伪造语音;其中,训练后的多尺度残差神经网络模型,使用单分类Softmax损失函数进行训练,学习一个特征空间,压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音。
[0012]第二方面,本专利技术提供了基于单分类多尺度残差网络的语音鉴伪系统;
[0013]基于单分类多尺度残差网络的语音鉴伪系统,包括:
[0014]获取模块,其被配置为:获取待鉴别的语音数据;
[0015]分帧加窗模块,其被配置为:对语音数据进行分帧加窗处理;
[0016]特征提取模块,其被配置为:对分帧加窗处理后的语音数据进行特征提取操作;
[0017]鉴别模块,其被配置为:将提取的特征输入到训练后的多尺度残差神经网络模型中,生成置信度分数,根据置信度分数确定待鉴别的语音数据是真实语音还是伪造语音;其中,训练后的多尺度残差神经网络模型,使用单分类Softmax损失函数进行训练,学习一个特征空间,压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音。
[0018]第三方面,本专利技术还提供了一种电子设备,包括:
[0019]存储器,用于非暂时性存储计算机可读指令;以及
[0020]处理器,用于运行所述计算机可读指令,
[0021]其中,所述计算机可读指令被所述处理器运行时,执行上述第一方面所述的方法。
[0022]第四方面,本专利技术还提供了一种存储介质,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行第一方面所述方法的指令。
[0023]第五方面,本专利技术还提供了一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现上述第一方面所述的方法。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]对语音数据进行分帧加窗处理;对处理后的语音数据进行特征提取操作;将提取的特征输入到多尺度残差神经网络模型中,并采用池化层,生成置信度分数以表示分类结果;使用单分类Softmax损失函数进行训练,学习一个特征空间,压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音;得到置信度分数,根据置信度分数判断是真实语音还是伪造语音。池化层能够对输入的特定部分赋予更高的重要性,多尺度残差模块增加了可能的感受野,导致多重特征尺度,极大地提高了系统的容量,减小了模型大小,从而提高语音伪造检测模型的准确率和泛化能力。
[0026]本专利技术通过多尺度残差神经网络与单分类Softmax损失函数对语音数据进行训练并分类,有效降低了等错误率与串联检测代价函数指标。
[0027]本专利技术增加了可能的感受野,导致多重特征尺度,极大地提高了系统的容量,减小了模型大小,并有助于系统在面对未知伪造语音攻击时表现得更好。
[0028]缓解了训练数据和测试数据之间特征分布不匹配的问题,从而提高语音伪造检测模型的准确率和泛化能力。
附图说明
[0029]构成本专利技术的一部分的说明书附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。
[0030]图1为实施例一的方法流程图;
[0031]图2为实施例一的单分类多尺度残差网络模型训练流程图;
[0032]图3为实施例一的多尺度残差模块结构示意图;
[0033]图4为实施例一的单分类Softmax损失函数结构示意图;
具体实施方式
[0034]应该指出,以下详细说明都是示例性的,旨在对本专利技术提供进一步的说明。除非另
有指明,本文使用的所有技术和科学术语具有与本专利技术所属
的普通技术人员通常理解的相同含义。
[0035]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本专利技术的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0036]在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。
[0037]本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
[0038]传统语音伪造检测方法是二分类问题,分类性能依赖数据集中假样本的数量和分布,对假样本不足、测试集和训练集数据分布不同、伪造方式未知等比较敏感。单分类只把真语音(目标类)分出来,其它都视作异常,适应性更好。单分类方法广泛应用于异常图像检测和异常事件检测,它们也被广泛用于生物识别应用,如主动认证和反欺骗本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于单分类多尺度残差网络的语音鉴伪方法,其特征是,包括:获取待鉴别的语音数据;对语音数据进行分帧加窗处理;对分帧加窗处理后的语音数据进行特征提取操作;将提取的特征输入到训练后的多尺度残差神经网络模型中,生成置信度分数,根据置信度分数确定待鉴别的语音数据是真实语音还是伪造语音;其中,训练后的多尺度残差神经网络模型,使用单分类Softmax损失函数进行训练,学习一个特征空间,压缩真实语音表示并注入角度余量以分离嵌入空间中的伪造语音。2.如权利要求1所述的基于单分类多尺度残差网络的语音鉴伪方法,其特征是,所述训练后的多尺度残差神经网络模型,其网络结构包括:依次连接的卷积层C1、批量标准化层P1、激活函数层J1、第一多尺度残差模块、第二多尺度残差模块、第三多尺度残差模块、第四多尺度残差模块、卷积层C2、批量标准化层P2、激活函数层J2、池化层、全连接层、单分类Softmax损失函数层和输出层。3.如权利要求1所述的基于单分类多尺度残差网络的语音鉴伪方法,其特征是,所述训练后的多尺度残差神经网络模型,其工作原理包括:输入特征经过9
×
3的卷积层C1、批量标准化层P1、激活函数层J1得到特征向量,特征向量输入到堆叠的4个多尺度残差模块得到深层特征向量,深层特征向量再经过3
×
3卷积层C2、批量标准化层P2、激活函数层J2,对深层特征进行池化操作后,输入到全连接层进行分类,使用单分类Softmax损失函数计算得到置信度分数,进而得到输入语音数据的分类结果。4.如权利要求2所述的基于单分类多尺度残差网络的语音鉴伪方法,其特征是,所述第一多尺度残差模块,包括:卷积层C3;卷积层C3对输入的特征图按照通道维度均匀分割为s个子集,s个子集用u
i
表示,i∈{1,2,

,s};对第一子集u1不进行任何操作,输出值z1=u1;除u1外,每个u
i
由3
×
3卷积滤波器K
i
处理;从i=3开始,将u
i
与K
i
‑1的输出相加,然后输入到卷积滤波器K
i
,卷积滤波器K
i
输出值为z
i
;用公式表示为:最后将所有的输出值z
i
进行拼接,将拼接后的输出值输入到卷积层C4中;卷积层C4的输出端与卷积层C3的输入端进行残差连接。5.如权利要求1所述的基于单分类多尺度残差网络的语音鉴伪方法,其特征是,所述训练后的多尺度残差神经网络模型,其训练过程包括:构建训练集和测试集;所述训练集和测试集均为已知语音真...

【专利技术属性】
技术研发人员:张鹏赵靖柏绪恒梁艳张建强汪付强刘祥志吴晓明
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1