一种基于卷积神经网络的防录音攻击检测的声纹认证方法技术

技术编号:21118048 阅读:17 留言:0更新日期:2019-05-16 09:42
本发明专利技术公开了一种基于卷积神经网络的防录音攻击声纹认证方法,包括步骤:步骤S101:获取待检测音频构建声纹认证数据集;步骤S102:对声纹认证数据集的音频进行特征提取,包括特征MFCC、瓶颈层特征;步骤S103:结合MobileNet和Unet构建卷积神经网络;步骤S104:将声纹认证数据集输入到卷积神经网络进行训练;步骤S105:使用测试音频,将瓶颈层特征输入到训练好的卷积神经网络中得到测试分数判断真实说话或录音音频。本发明专利技术结合了Unet和MobileNet两模型的特点,具有较低的模型复杂度,即较低的模型大小和耗费较小的计算资源,且具有较高识别准确率,能够移植并应用在手机端和嵌入式设备中。

A Voice Mark Authentication Method Based on Convolutional Neural Network to Prevent Recording Attack Detection

【技术实现步骤摘要】
一种基于卷积神经网络的防录音攻击检测的声纹认证方法
本专利技术涉及深度学习、声纹识别领域,尤其涉及一种基于卷积神经网络的防录音攻击检测的声纹认证方法。
技术介绍
声纹识别技术,是一种常见而实用的生物认证技术,然而,随着识别技术的进步,破解的技术也在发展。常见的破解声纹识别系统技术的方法有真人模仿以及机器模仿两种,真人模仿是有经验的人员通过模拟说话人的声线,发声技巧,从而达到冒充说话者的方法,而机器模仿又包括了机器合成,机器录音播放攻击等方法。其中,录音攻击是使用高保真的录音设备,将说话者人物声音进行录制,然后再使用音频去破解声纹认证系统。此方法由于是来自本人声音,而且相比于专业人员模仿,这种方法更容易实现,目标说话者的音频更容易取得,且具有真实性,因此对于声纹认证系统的威胁极大。目前,解决说话人识别系统的问题,现有的方法是通过提取说话者音频的声纹特征,与已经录制的声音进行匹配,从而判断说话者身份以及是否录音亦或是真人的问题。然而目前仍然存在着模型消耗大、提取特征的准确率还可以进一步提升的问题。
技术实现思路
针对上述技术问题,本专利技术提供了一种基于卷积神经网络的防录音攻击的声纹认证方法,该方法结合Unet和MobileNet两种模型的特点,具有较高的识别准确度和较低的模型消耗。本专利技术提供通过如下技术方案实现:一种基于卷积神经网络的防录音攻击声纹认证方法,包括以下步骤:步骤S101:获取待检测音频,通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集;步骤S102:对声纹认证数据集的音频进行特征提取,包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征;步骤S103:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建卷积神经网络;步骤S104:将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练,学习分辨出各种录音设备声音和真实说话声音的能力;步骤S105:将卷积神经网络训练成功并收敛后,使用测试音频,将瓶颈层特征输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。进一步地,步骤S101中,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。进一步地,所述步骤S102中,对声纹认证数据集的音频进行特征提取前,先对声纹认证数据集中的录音音频和真实语音音频分别进行预加重、加窗、端点检测处理。进一步地,所述步骤S102中,提取瓶颈层特征时,使用全连接神经网络对音频进行特征提取,以特征MFCC、LFCC、CQCC作为模型输入以及输出,将全连接神经网络中间的瓶颈层的输出作为此音频的特征,输入到真正用于识别的卷积神经网络中。进一步地,所述步骤S103中,使用轻型神经网络MobileNet将卷积层操作分解成深度卷积和1×1的卷积,实现减少存储空间,减少计算量的功能。进一步地,所述步骤S103中,所构建的卷积神经网络的输入层与一层标准卷积层相连,之后使用四层步长为2的下采样卷积层,然后四层步长为2的上采样反卷积层,第1层卷积层与最后一层卷积层进行直接连接,最后通过softmax多分类器输出最终的分类结果。相比现有技术,本专利技术具有如下有益效果:本专利技术的卷积神经网络使用瓶颈层特征作为模型输入,即使用神经网络瓶颈层提取特征,再使用卷积神经网络进行分类,使用瓶颈层网络有利于学习的音频中的低层特征。而使用MobileNet基于深度可分解卷积,这种卷积把标准卷积操作拆分成一个深度卷积和一个1×1的点卷积,可以大量减少计算和模型尺寸。附图说明图1为本专利技术实施例提供的一种防录音攻击的声纹认证方法的一个实施例的流程示意图;图2为本专利技术实施例提供的一种防录音攻击的声纹认证方法的另一个实施例的流程示意图。具体实施方式本专利技术实施提供一种基于卷积神经网络的防录音攻击的声纹认证方法,用于解决现有的说话人识别系统语音识别准确率低,模型体量大的问题。为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。实施例一图1所示,本实施例提出的基于卷积神经网络的防录音攻击的声纹认证方法,主要包括:步骤101:获取待检测音频,进行预加重处理及端点检测,提取待检测音频的MFCC特征向量,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。步骤102:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建新的卷积神经网络;在网络结构中,输入层与一层标准卷积层相连,之后使用四层步长为2的下采样卷积层,然后四层步长为2的上采样反卷积层,第1层卷积层与最后一层卷积层进行直接连接,最后通过softmax多分类器输出最终的分类结果。步骤103:将网络训练成功并收敛后,使用测试音频,提取测试音频的瓶颈层特征输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。实施例二图2所示,本实施例的基于卷积神经网络的防录音攻击的声纹认证方法,主要包括:步骤201:获取待检测音频,进行预加重处理及端点检测,提取待检测音频的MFCC特征向量,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。步骤202:使用步骤S101中提出的特征向量,训练一个全连接神经网络,模型输入和输出是S101中提取的MFCC特征,即训练一个自编码器。步骤203:将所有音频通过步骤202中训练的全连接神经网络,取其瓶颈层输出,作为新网络的特征输入。步骤204:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建卷积神经网络;在网络结构中,输入层与一层标准卷积层相连,之后使用四层步长为2的下采样卷积层,然后四层步长为2的上采样反卷积层,第1层卷积层与最后一层卷积层进行直接连接,最后通过softmax多分类器输出最终的分类结果。步骤205:对步骤203提取好的瓶颈层特征,使用步骤204设计好的卷积神经网络进行训练学习,学习不同音频的特征。步骤206:将网络训练成功并收敛后,使用测试音频,用步骤S203提取的测试音频的瓶颈层特征,输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。本实施例,通过数据采集和端点检测的方式获取数据,使用自编码器神经网络提取瓶颈层特征。结合经典卷积神经网络MobileNet的深度可分解操作,设计了一种新的卷积神经网络模型,并在采集到的数据集进行训练,从而实现鉴别录音攻击的目的。最后应说明的是:以上各实施例仅用以说明本专利技术的技术方案,而非对其限制;尽管参照前述各实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络的防录音攻击声纹认证方法,包括以下步骤:步骤S101:获取待检测音频,通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集;步骤S102:对声纹认证数据集的音频进行特征提取,包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征;步骤S103:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建卷积神经网络;步骤S104:将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练,学习分辨出各种录音设备声音和真实说话声音的能力;步骤S105:将卷积神经网络训练成功并收敛后,使用测试音频,将瓶颈层特征输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。

【技术特征摘要】
1.一种基于卷积神经网络的防录音攻击声纹认证方法,包括以下步骤:步骤S101:获取待检测音频,通过数据采集和静音端点检测两种方式构建常用的可以防录音攻击的声纹认证数据集;步骤S102:对声纹认证数据集的音频进行特征提取,包括特征MFCC、LFCC、CQCC、以及使用全连接神经网络提取的瓶颈层特征;步骤S103:结合MobileNet的深度可分解操作和Unet首层和最后层神经网络进行连接的方式,构建卷积神经网络;步骤S104:将采集到的所述声纹认证数据集输入到构建好的卷积神经网络进行训练,学习分辨出各种录音设备声音和真实说话声音的能力;步骤S105:将卷积神经网络训练成功并收敛后,使用测试音频,将瓶颈层特征输入到训练好的网络中并得到测试分数,也就是可信度,当超过分数阈值时,则认为此段音频可信,为真实说话者,否则,则认为是录音音频。2.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法,其特征在于,步骤S101中,所述待检测音频包括人的真实说话声,以及在不同录音设备录制后播放的声音。3.根据权利要求1所述基于卷积神经网络的防录音攻击的声纹识别方法...

【专利技术属性】
技术研发人员:谢志峰张伟彬徐向民
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1