一种领域自适应的录音重放攻击检测方法及系统技术方案

技术编号:25892378 阅读:56 留言:0更新日期:2020-10-09 23:36
本发明专利技术公开了一种领域自适应的录音重放攻击检测方法,包括以下步骤:从录音中至少一段录音区域提取声学特征;从所述声学特征中提取共享声纹特征向量;以及从所述共享声纹特征向量中,通过领域自适应的方法检测所述录音是否是重放录音。本发明专利技术在录音重放的设备、环境以及说话人的领域多样性的条件下,依然能够保证录音重放攻击检测系统的鲁棒性。

【技术实现步骤摘要】
一种领域自适应的录音重放攻击检测方法及系统
本专利技术涉及语音信号处理
,尤其涉及一种领域自适应的录音重放攻击检测方法及系统。
技术介绍
近年来,随着人工智能技术的快速发展,越来越多的带有人工智能技术的产品出现在人们的日常生活中,特别是近年的智能音箱异军突起。其中声纹识别技术几乎是所有的智能音箱的标配,用户使用自己的声音就可以完成账户登录、购物支付等。录音重放攻击检测是声纹识别系统的中极其重要的环节,判断语音来源的真人还是录音。由于录音重放的设备、环境以及说话人是多样性的,领域的多样性导致录音重放攻击检测系统性能下降。
技术实现思路
本专利技术为了解决录音重放攻击的领域多样性问题,提出了一种领域自适应的录音重放攻击检测方法及系统。设计一个共享声纹特征提取模块,将语音的声学特征输入到这个共享模块,提取共享声纹特征,然后共享声纹特征分别输入到四个子分类模块中,分别是:重放攻击检测模块、重放设备检测模块、重放环境检测模块及重放说话人检测模块。其中,重放攻击检测模块的误差梯度直接反馈回共享声纹特征提取模块和重放攻击检测模块,而重放设备检测模块、重放环境检测模块及重放说话人检测模块的误差梯度反馈回各自的模块外,同时取反之后再反馈回共享声纹特征提取模块。通过此方法及系统可以增强系统的领域自适应性,提高系统的重放攻击检测能力。本专利技术通过以下技术方案来实现上述目的:一种领域自适应的录音重放攻击检测方法及系统,包括以下步骤:计算从录音中至少一段录音区域提取声学特征,所述声学特征包括梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)或能量归一化倒谱系数(Power-normalizedCepstralCoefficients,PNCC);从所述声学特征中提取共享声纹特征向量;从所述共享声纹特征向量中,通过领域自适应的方法检测所述录音是否是重放录音。进一步地,在检测阶段,所述共享声纹特征向量用来检测与所述录音重放攻击检测相关联的至少一个领域自适应对抗任务的对应目标,所述领域自适应对抗任务包括:重放设备检测任务、重放环境检测任务及重放说话人检测任务。进一步地,共享声纹特征向量是通过共享声纹特征模块提取,检测是否是重放录音是通过重放攻击检测模块实现,重放设备检测任务是通过重放设备检测模块实现,重放环境检测任务是通过重放环境检测模块实现,重放说话人检测任务是通过重放说话人检测模块实现。进一步地,共享声纹特征模块、重放攻击检测模块、重放设备检测模块、重放环境检测模块和重放说话人检测模块都由深度神经网络构成,所述深度神经网络包括卷积神经网络(CNN)、递归神经网络(RNN、LSTM、GRU)和延时神经网络(TDNN)中的一种或者多种网络的组合。进一步地,还包括各个模块的训练方法。其中,共享声纹特征模块的权重为Wf,重放攻击检测模块的权重为Wa,重放设备检测模块的权重为Wd,重放说话人检测模块的权重为Ws,重放环境检测模块的权重为We,各模块的训练步骤如下:S0:将录音的声学特征输入到共享声纹特征模块中,提取共享声纹特征向量;S1:将S0中共享声纹特征向量输入重放攻击检测模块中,输出分类误差La;S2:将S0中共享声纹特征向量输入重放设备检测模块中,输出分类误差Ld;S3:将S0中共享声纹特征向量输入重放说话人检测模块中,输出分类误差Ls;S4:将S0中共享声纹特征向量输入重放环境检测模块中,输出分类误差Le;S5:各权重的更新方式如下:其中,ε是学习率,α1、α2、α3分别是重放设备检测模块、重放说话人检测模块和重放环境检测模块的权重。S6:重复S0到S5得步骤,直到各模块收敛。本专利技术实施例提供的另一种领域自适应的录音重放攻击检测系统,包括以下模块:声学特征提取模块,用于提取录音中至少一段录音区域的声学特征;共享声纹特征提取模块,用于从所述声学特征中提取共享声纹特征向量;检测模块,用于检测所述共享声纹特征向量是否是重放攻击;进一步地,检测模块还被用于检测与重放攻击相关联的至少一个领域自适应的对抗任务。进一步地,共享声纹特征提取模块和检测模块还包含深度神经网络模块。进一步地,还包括训练模块,用于训练共享声纹特征提取模块和检测模块中的深度神经网络模块。本专利技术的有益效果在于:本专利技术可解决由于录音重放的设备、环境以及说话人的领域多样性导致录音重放攻击检测系统性能下降的问题;在录音重放的设备、环境以及说话人的领域多样性的条件下,依然能够保证录音重放攻击检测系统的鲁棒性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1:一种领域自适应的录音重放攻击检测方法的示意图;图2:一种领域自适应的录音重放攻击检测方法中的训练方法示意图;图3:一种领域自适应的录音重放攻击检测系统的结构示意图;具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。实施例一参考图1和图2描述本专利技术提出的一种领域自适应的录音重放攻击检测方法,其中图1展示了录音重放攻击检测方法的流程图,图2展示了领域自适应的录音重放攻击检测方法的训练流程图。在步骤S101中,从录音中的至少一段录音区域中提取声学特征,声学特征包括梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC)或能量归一化倒谱系数(Power-normalizedCepstralCoefficients,PNCC);在步骤S102中,从步骤S101中提取的多声学特征提取共享声纹特征向量;在步骤S103中,从步骤S102中提取的共享声纹特征向量中检测录音是否是重放攻击;同时在检测阶段,所述共享声纹特征向量用来检测与所述录音重放攻击检测相关联的至少一个领域自适应对抗任务的对应目标,所述领域自适应对抗任务包括但不仅限于:重放设备检测任务、重放环境检测任务及重放说话人检测任务,并获取所有领域自适应的对抗任务的检测结果。共享声纹特征向量是通过共享声纹特征模块提取,检测是否是重放录音是通过重放攻击检测模块实现,重放设备检测任务是通过重放设备检测模块实现,重放环境检测任务是通过重放环境检测模块实现,重放说话人检测任务是通过重放说话人检测模块实现。共享声纹特征模块、重放攻击检测模块、重本文档来自技高网...

【技术保护点】
1.一种领域自适应的录音重放攻击检测方法,其特征在于,包括以下步骤:/n从录音中至少一段录音区域提取声学特征;/n从所述声学特征中提取共享声纹特征向量;以及/n从所述共享声纹特征向量中,通过领域自适应的方法检测所述录音是否是重放录音。/n

【技术特征摘要】
1.一种领域自适应的录音重放攻击检测方法,其特征在于,包括以下步骤:
从录音中至少一段录音区域提取声学特征;
从所述声学特征中提取共享声纹特征向量;以及
从所述共享声纹特征向量中,通过领域自适应的方法检测所述录音是否是重放录音。


2.如权利要求1所述的一种领域自适应的录音重放攻击检测方法,其特征在于,所述声学特征包括梅尔频率倒谱系数或能量归一化倒谱系数。


3.如权利要求1所述的一种领域自适应的录音重放攻击检测方法,其特征在于,所述共享声纹特征向量用来检测与录音重放攻击检测相关联的至少一个领域自适应对抗任务的对应目标,所述领域自适应对抗任务包括:重放设备检测任务、重放环境检测任务及重放说话人检测任务。


4.如权利要求3所述的一种领域自适应的录音重放攻击检测方法,其特征在于,所述共享声纹特征向量是通过共享声纹特征提取模块提取,检测是否是重放录音是通过重放攻击检测模块实现,重放设备检测任务是通过重放设备检测模块实现,重放环境检测任务是通过重放环境检测模块实现,重放说话人检测任务是通过重放说话人检测模块实现。


5.如权利要求4所述的一种领域自适应的录音重放攻击检测方法及系统,其特征在于,所述共享声纹特征提取模块、重放攻击检测模块、重放设备检测模块、重放环境检测模块和重放说话人检测模块由深度神经网络构成,所述深度神经网络包括卷积神经网络、递归神经网络和延时神经网络中的一种或者多种网络的组合。


6.如权利要求4-5任一项所述的一种领域自适应的录音重放攻击检测方法其特征在于,各模块的训练步骤如下:
其中,共享声纹特征模块的权重为Wf,重放攻击检测模块的权重为Wa,重放设备检测模块的权重为Wd,重放说话人检测模块的权重...

【专利技术属性】
技术研发人员:伍强
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1