一种基于深度残差收缩网络的语音欺骗检测方法技术

技术编号：33500064 阅读：12 留言：0更新日期：2022-05-19 01:10

本发明专利技术公开了一种基于深度残差收缩网络的语音欺骗检测方法，首先对待检测语音进行预处理，对预处理后的语音特征数据进行变换获得对应的常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征；然后采用深度残差收缩网络，分别对常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征进行处理，获得对应的三种深度特征；将所述三种深度特征分别输入到深度神经网络分类器，计算得到所述三种深度特征对应的检测分数；最后将所述三种深度特征对应的检测分数进行融合，判断待检测语音是否为真实语音。本发明专利技术提高了在复杂声学环境下的判别特征学习能力，提升了系统泛化性，应用场景更广。应用场景更广。应用场景更广。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度残差收缩网络的语音欺骗检测方法

[0001]本申请属于语音检测和深度学习
，尤其涉及一种基于深度残差收缩网络的语音欺骗检测方法。

技术介绍

[0002]近年来，基于生物识别的身份认证技术在数据安全和通过性认证中的作用越来越重要。由于采集传感设备的发展，自动说话人验证技术受到了广泛的关注，并应用于智能设备登录、门禁控制、网上银行等方面。但是各类语音伪造技术威胁着自动说话人验证系统的安全性能，目前确定了四种类型的伪造语音欺骗攻击：语音合成、语音转换、语音模仿、重播，它们可生成类似于合法用户语音的伪造语音。以语音合成和语音转换为主的逻辑访问攻击，在感知上与真正语音无法区分，因此区分伪造语音与真实用户语音变得更具挑战性。越来越多的研究证实,自动说话人验证系统在面对数据库的各种恶意欺骗攻击时存在严重脆弱性。
[0003]为了应对欺骗攻击威胁，研究人员一直致力于寻求有效的反欺骗方法，目前语音欺骗检测系统主要由前端特征提取和后端分类器两部分组成。与一般的说话人验证和语音处理所使用的声学特征不同，语音欺骗检测需要开发更适用于语音欺骗检测的声学特征。经声学特征提取后，使用性能出色的分类器以完成真伪语音区分。在传统的机器学习方法中，高斯混合模型(GMM)是最经典的分类模型，其优势在于训练时间短，但检测准确性有限；随着深度学习的兴起，各类能够学习复杂非线性特征的深度神经网络也被应用于语音欺骗检测。卷积神经网络(CNN)具有良好的表征学习能力在提取音频特征中广泛使用。循环神经网络(RNN)因循环单元和门限结构而具有...

【技术保护点】

【技术特征摘要】
1.一种基于深度残差收缩网络的语音欺骗检测方法，其特征在于，所述基于深度残差收缩网络的语音欺骗检测方法，包括：对待检测语音进行预处理，对预处理后的语音特征数据进行变换获得对应的常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征；采用深度残差收缩网络，分别对常数Q倒谱系数特征、梅尔频率倒谱系数特征和声谱图特征进行处理，获得对应的三种深度特征；将所述三种深度特征分别输入到深度神经网络分类器，计算得到所述三种深度特征对应的检测分数；将所述三种深度特征对应的检测分数进行融合，判断待检测语音是否为真实语音。2.根据权利要求1所述的基于深度残差收缩网络的语音欺骗检测方法，其特征在于，所述深度残差收缩网络包括残差收缩构建单元，所述残差收缩构建单元包括卷积模块、自适应阈值学习模块和软阈值模块，所述卷积模块的输出经过自适应阈值学习模块学习得到阈值，所述软阈值模块对卷积模块和自适应阈值学习模块的输出进行处理，突出高判别性的声音信息。3.根据权利要求2所述的基于深度残差收缩网络的语音欺骗检测方法，其特征在于，用于处理常数Q倒谱系数特征的深度残差收缩网络堆叠了6个残差收缩构建单元，用于处理梅尔频率倒谱系数特征的深度残差收缩网络堆叠了9个残差收缩构建单元，用于处理声谱图特征的深度残差收缩网络堆叠了6个残差收缩构建单元。4.根据权利要求1所述的基于深度残差收缩网络的语音欺骗检测方法，其特征在于，所述深度神经网络分...

【专利技术属性】
技术研发人员：章坚武，周晔，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人