一种基于深度残差收缩网络的语音欺骗检测方法技术

技术编号:33500064 阅读:12 留言:0更新日期:2022-05-19 01:10
本发明专利技术公开了一种基于深度残差收缩网络的语音欺骗检测方法,首先对待检测语音进行预处理,对预处理后的语音特征数据进行变换获得对应的常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征;然后采用深度残差收缩网络,分别对常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征进行处理,获得对应的三种深度特征;将所述三种深度特征分别输入到深度神经网络分类器,计算得到所述三种深度特征对应的检测分数;最后将所述三种深度特征对应的检测分数进行融合,判断待检测语音是否为真实语音。本发明专利技术提高了在复杂声学环境下的判别特征学习能力,提升了系统泛化性,应用场景更广。应用场景更广。应用场景更广。

【技术实现步骤摘要】
一种基于深度残差收缩网络的语音欺骗检测方法


[0001]本申请属于语音检测和深度学习
,尤其涉及一种基于深度残差收缩网络的语音欺骗检测方法。

技术介绍

[0002]近年来,基于生物识别的身份认证技术在数据安全和通过性认证中的作用越来越重要。由于采集传感设备的发展,自动说话人验证技术受到了广泛的关注,并应用于智能设备登录、门禁控制、网上银行等方面。但是各类语音伪造技术威胁着自动说话人验证系统的安全性能,目前确定了四种类型的伪造语音欺骗攻击:语音合成、语音转换、语音模仿、重播,它们可生成类似于合法用户语音的伪造语音。以语音合成和语音转换为主的逻辑访问攻击,在感知上与真正语音无法区分,因此区分伪造语音与真实用户语音变得更具挑战性。越来越多的研究证实,自动说话人验证系统在面对数据库的各种恶意欺骗攻击时存在严重脆弱性。
[0003]为了应对欺骗攻击威胁,研究人员一直致力于寻求有效的反欺骗方法,目前语音欺骗检测系统主要由前端特征提取和后端分类器两部分组成。与一般的说话人验证和语音处理所使用的声学特征不同,语音欺骗检测需要开发更适用于语音欺骗检测的声学特征。经声学特征提取后,使用性能出色的分类器以完成真伪语音区分。在传统的机器学习方法中,高斯混合模型(GMM)是最经典的分类模型,其优势在于训练时间短,但检测准确性有限;随着深度学习的兴起,各类能够学习复杂非线性特征的深度神经网络也被应用于语音欺骗检测。卷积神经网络(CNN)具有良好的表征学习能力在提取音频特征中广泛使用。循环神经网络(RNN)因循环单元和门限结构而具有记忆性,所以在对时间序列问题的处理中具有一定的优势。
[0004]虽然现有方法的训练性能有所提升,但在实际应用中会遭遇未知类型攻击,而这些攻击通常与已知攻击具有不同的统计分布,从而造成训练和应用之间巨大的性能差距,这表明欺骗检测系统对未知攻击的泛化能力仍待改进。此外,由于真实环境中往往存在噪声、混响和信道干扰,各类欺骗检测系统面对复杂的声学环境时,存在性能大幅倒退情况。

技术实现思路

[0005]本申请的目的是提供一种基于深度残差收缩网络的语音欺骗检测方法,以针对复杂声学环境下的语音欺骗检测。
[0006]为了实现上述目的,本申请技术方案如下:
[0007]一种基于深度残差收缩网络的语音欺骗检测方法,包括:
[0008]对待检测语音进行预处理,对预处理后的语音特征数据进行变换获得对应的常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征;
[0009]采用深度残差收缩网络,分别对常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征进行处理,获得对应的三种深度特征;
[0010]将所述三种深度特征分别输入到深度神经网络分类器,计算得到所述三种深度特征对应的检测分数;
[0011]将所述三种深度特征对应的检测分数进行融合,判断待检测语音是否为真实语音。
[0012]进一步的,所述深度残差收缩网络包括残差收缩构建单元,所述残差收缩构建单元包括卷积模块、自适应阈值学习模块和软阈值模块,所述卷积模块的输出经过自适应阈值学习模块学习得到阈值,所述软阈值模块对卷积模块和自适应阈值学习模块的输出进行处理,突出高判别性的声音信息。
[0013]进一步的,用于处理常数Q倒谱系数特征的深度残差收缩网络堆叠了6个残差收缩构建单元,用于处理梅尔频率倒谱系数特征的深度残差收缩网络堆叠了9个残差收缩构建单元,用于处理声谱图特征的深度残差收缩网络堆叠了6个残差收缩构建单元。
[0014]进一步的,所述深度神经网络分类器包括Dropout层、第一全隐藏连接层、Leak

Relu激活函数层、第二隐藏全连接层和LogSoftmax层。
[0015]进一步的,所述Dropout层的随机丢弃权值概率为50%。
[0016]进一步的,所述将所述三种深度特征对应的检测分数进行融合,公式如下:
[0017][0018][0019]其中Score
fuse
为融合后的联合检测分数,w
i
为融合权重,s
i
为第i种深度特征对应的检测分数。
[0020]进一步的,所述对预处理后的语音特征数据进行变换获得对应的常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征,包括:
[0021]对经预处理的语音特征数据进行常数Q变换,再计算功率谱并取对数,接着进行均匀重采样,最后通过离散余弦变换以获得常数Q倒谱系特征;
[0022]对经预处理的语音特征数据进行短时傅立叶变换STFT,再通过滤波将频谱映射到梅尔频谱,最后经过离散余弦变换而得到梅尔频率倒谱系数特征;
[0023]对经预处理的语音特征数据进行短时傅里叶变换,并计算每个分量的大小最后将其转换为对数刻度,得到声谱图特征。
[0024]本申请提出的一种基于深度残差收缩网络的语音欺骗检测方法,构建了深度残差收缩网络,采用基于深度注意力机制的自适应阈值学习模块和软阈值模块的残差收缩构建单元,使每个语音信号依据各自声学环境确定独立阈值,将不重要的特征强制置零,以消除与噪声相关的信息,学习更具辨别性的高级特征,进而提高在复杂声学环境下的判别特征学习能力。针对检测方法泛化性能差问题,使用CQCC、MFCC和Spectrogram三种不同声学特征提取算法以更全面地表示语音特性,并将特征分别作为网络输入,依据其输出性能为各模型生成权重并执行多特征联合检测,以提升系统泛化性,应用场景更广。
附图说明
[0025]图1为本申请基于深度残差收缩网络的语音欺骗检测方法流程图;
[0026]图2为本申请网络总体框架结构图;
[0027]图3为本申请特征提取示意图;
[0028]图4为本申请残差收缩构建单元结构示意图;
[0029]图5为本申请深度残差收缩网络结构图;
[0030]图6为本申请DNN分类器结构示意图。
具体实施方式
[0031]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
[0032]在一个实施例中,如图1所示,提供了一种基于深度残差收缩网络的语音欺骗检测方法,包括:
[0033]步骤S1、对待检测语音进行预处理,对预处理后的语音特征数据进行变换获得对应的常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征。
[0034]如图2所示,本步骤实现特征提取。首先对待检测语音进行分帧处理,并对样本点数不足64000的语音数据进行pad填充操作,最后执行数据归一化完成数据预处理。语音数据和视频数据不同,本没有帧的概念,但是为了传输与存储,本申请采集的音频数据都是一段一段的。为了程序能够进行批量处理,会根据指定的长度(时间段或者采样数)进行分段,结构化为编程的数据结构,这就是分帧。语音信号在宏观上是不平稳的,在微观上是平稳的,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度残差收缩网络的语音欺骗检测方法,其特征在于,所述基于深度残差收缩网络的语音欺骗检测方法,包括:对待检测语音进行预处理,对预处理后的语音特征数据进行变换获得对应的常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征;采用深度残差收缩网络,分别对常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征进行处理,获得对应的三种深度特征;将所述三种深度特征分别输入到深度神经网络分类器,计算得到所述三种深度特征对应的检测分数;将所述三种深度特征对应的检测分数进行融合,判断待检测语音是否为真实语音。2.根据权利要求1所述的基于深度残差收缩网络的语音欺骗检测方法,其特征在于,所述深度残差收缩网络包括残差收缩构建单元,所述残差收缩构建单元包括卷积模块、自适应阈值学习模块和软阈值模块,所述卷积模块的输出经过自适应阈值学习模块学习得到阈值,所述软阈值模块对卷积模块和自适应阈值学习模块的输出进行处理,突出高判别性的声音信息。3.根据权利要求2所述的基于深度残差收缩网络的语音欺骗检测方法,其特征在于,用于处理常数Q倒谱系数特征的深度残差收缩网络堆叠了6个残差收缩构建单元,用于处理梅尔频率倒谱系数特征的深度残差收缩网络堆叠了9个残差收缩构建单元,用于处理声谱图特征的深度残差收缩网络堆叠了6个残差收缩构建单元。4.根据权利要求1所述的基于深度残差收缩网络的语音欺骗检测方法,其特征在于,所述深度神经网络分...

【专利技术属性】
技术研发人员:章坚武周晔
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1