一种基于卷积神经网络的防录音攻击检测的声纹认证方法技术

技术编号：21118048 阅读：17 留言：0更新日期：2019-05-16 09:42

本发明专利技术公开了一种基于卷积神经网络的防录音攻击声纹认证方法，包括步骤：步骤S101：获取待检测音频构建声纹认证数据集；步骤S102：对声纹认证数据集的音频进行特征提取，包括特征MFCC、瓶颈层特征；步骤S103：结合MobileNet和Unet构建卷积神经网络；步骤S104：将声纹认证数据集输入到卷积神经网络进行训练；步骤S105：使用测试音频，将瓶颈层特征输入到训练好的卷积神经网络中得到测试分数判断真实说话或录音音频。本发明专利技术结合了Unet和MobileNet两模型的特点，具有较低的模型复杂度，即较低的模型大小和耗费较小的计算资源，且具有较高识别准确率，能够移植并应用在手机端和嵌入式设备中。

A Voice Mark Authentication Method Based on Convolutional Neural Network to Prevent Recording Attack Detection

全部详细技术资料下载

【技术实现步骤摘要】
一种基于卷积神经网络的防录音攻击检测的声纹认证方法
本专利技术涉及深度学习、声纹识别领域，尤其涉及一种基于卷积神经网络的防录音攻击检测的声纹认证方法。
技术介绍
声纹识别技术，是一种常见而实用的生物认证技术，然而，随着识别技术的进步，破解的技术也在发展。常见的破解声纹识别系统技术的方法有真人模仿以及机器模仿两种，真人模仿是有经验的人员通过模拟说话人的声线，发声技巧，从而达到冒充说话者的方法，而机器模仿又包括了机器合成，机器录音播放攻击等方法。其中，录音攻击是使用高保真的录音设备，将说话者人物声音进行录制，然后再使用音频去破解声纹认证系统。此方法由于是来自本人声音，而且相比于专业人员模仿，这种方法更容易实现，目标说话者的音频更容易取得，且具有真实性，因此对于声纹认证系统的威胁极大。目前，解决说话人识别系统的问题，现有的方法是通过提取说话者音频的声纹特征，与已经录制的声音进行匹配，从而判断说话者身份以及是否录音亦或是真人的问题。然而目前仍然存在着模型消耗大、提取特征的准确率还可以进一步提升的问题。
技术实现思路
针对上述技术问题，本专利技术提供了一种基于卷积神经网络的防录音攻击的声纹认证方法，该方法结合Unet和MobileNet两种模型的特点，具有较高的识别准确度和较低的模型消耗。本专利技术提供通过如下技术方案实现：一种基于卷积神经网络的防录音攻击声纹认证方法，包括以下步骤：步骤S101：获取待检测音频，通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集；步骤S102：对声纹认证数据集的音频进行特征提取，包括特征MFCC、LFCC、CQC...

【技术保护点】
1.一种基于卷积神经网络的防录音攻击声纹认证方法，包括以下步骤：步骤S101：获取待检测音频，通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集；步骤S102：对声纹认证数据集的音频进行特征提取，包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征；步骤S103：结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式，构建卷积神经网络；步骤S104：将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练，学习分辨出各种录音设备声音和真实说话声音的能力；步骤S105：将卷积神经网络训练成功并收敛后，使用测试音频，将瓶颈层特征输入到训练好的网络中并得到测试分数，也就是可信度，当超过分数阈值时，则认为此段音频可信，为真实说话者，否则，则认为是录音音频。

【技术特征摘要】
1.一种基于卷积神经网络的防录音攻击声纹认证方法，包括以下步骤：步骤S101：获取待检测音频，通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集；步骤S102：对声纹认证数据集的音频进行特征提取，包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征；步骤S103：结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式，构建卷积神经网络；步骤S104：将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练，学习分辨出各种录音设备声音和真实说话声音的能力；步骤S105：将卷积神经网络训练成功并收敛后，使用测试音频，将瓶颈层特征输入到训练好的网络中并得到测试分数，也就是可信度，当超过分数阈值时，则认为此段音频可信，为真实说话者，否则，则认为是录音音频。2.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法，其特征在于，步骤S101中，所述待检测音频包括人的真实说话声，以及在不同录音设备录制后播放的声音。3.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法...

【专利技术属性】
技术研发人员：谢志峰，张伟彬，徐向民，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人