一种基于信道模式噪声的录音回放攻击检测方法和系统技术方案

技术编号:7315777 阅读:270 留言:0更新日期:2012-05-04 01:04
本发明专利技术涉及智能语音信号处理、模式识别与人工智能技术领域,特别是涉及一种基于信道模式噪声的说话人识别系统中录音回放攻击检测方法和系统。本发明专利技术公开了一种说话人识别系统中更加简便和高效的录音回放攻击检测方法,所述方法步骤如下:(1)输入待识别语音信号;(2)对语音信号进行预处理;(3)提取预处理后语音信号中的信道模式噪声;(4)提取基于信道模式噪声的长时统计特征;(5)根据信道噪声分类判决模型对长时统计特征进行分类。本发明专利技术利用信道模式噪声进行录音回放攻击检测,所提取的特征维数低,计算复杂度低,错误识别率低。因此,可极大提高说话人识别系统的安全性能,更易于在现实中使用。

【技术实现步骤摘要】

本专利技术涉及智能语音信号处理、模式识别与人工智能
,特别是涉及一种基于信道模式噪声的说话人识别系统中录音回放攻击检测方法和系统。
技术介绍
随着说话人识别技术的不断发展,说话人识别系统得到了非常广泛的应用,例如 司法取证、电子商务、金融系统等。与此同时,说话人识别系统所面临的一些安全问题制约了其发展和应用。说话人识别系统面临的两种常见攻击是说话人仿冒攻击和录音回放攻击。说话人仿冒攻击是指攻击者通过模仿说话人识别系统中用户的声音对系统进行攻击。 在双胞胎语音库上的说话人识别实验表明现有的说话人识别技术能够区分具有类似声学特性的双胞胎语音,因此实施说话人仿冒攻击需要有非常好的模仿技巧,使得攻击者的语音能够和系统用户的语音达到高度相似,这使得仿冒攻击的可实施性不高。录音回放攻击是指攻击者事先用高保真录音设备偷录说话人识别系统中用户的语音,然后通过高保真功放在系统输入端回放,以此对说话人识别系统实施攻击。对于文本相关的说话人识别系统, 可以通过偷录用户进入系统时的语音或偷录大量用户语音通过音节拼接的方式实施回放攻击。对于文本无关的系统只需获得用户部分语音即可实施回放攻击。与仿冒语音相比, 录音回放语音是真实来自于用户本人,它对说话人识别系统造成的威胁更大。另一方面,现在性能好的高保真录音及回放设备不断涌现,价格也越来越便宜,并且体积也越来越小,便于携带不易被发现,这也让录音回放攻击变得越来越容易。防止录音回放攻击的一种策略是通过系统随机挑选语句让用户跟读,在进行说话人识别的同时还要判断用户是否按要求来跟读。这种方法的实施需要事先准备丰富的语音库,并且要求用户按照语音内容跟读,当用户按照自己的发音习惯跟读时,将有可能不能通过说话人识别系统,这种不太友好的交互性方式不容易被用户所接受。而且这种方法会牺牲掉说话人识别系统对于特定用户特定文本的安全保护性,会产生其它安全问题。在实际的应用中,这种方法只能用于文本相关的说话人识别系统,在做说话人识别的同时还要进行语音的文本识别,这也降低了说话人识别系统的总体效率。还有采用句子相似度比较的方法,用户每次输入的口令虽然文本相同,但是两次不可能采集到同样的样本,因此如果输入的句子和存储的句子相似度高过一定的范围就可以认定为录音回放攻击。这种方法存在明显缺陷一、该算法只能够应用于文本相关的说话人识别系统进行录音回放攻击检测;二、用户每次进入系统的样本都要存下来,需要大量存储空间;三、每次用户进入系统的样本都要和所有存储样本进行相似性比较,计算量非常大;四、如果所录回放语音并不是在用户进入系统时录制,例如私下录制或者是通过音节拼接得到,那么这个方法就无效;五、这种方法对阈值设定的依赖性很强,说话人识别本身就是进行相似度比较,相似度高的判断为同一个说话人,因此回防攻击和说话人自身识别的相似度阈值的界限很难确定。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷和不足,提供一种基于信道模式噪声的录音回放攻击检测方法,用于说话人识别系统中可提高录音回放攻击检测的成功率。本专利技术的另一目的还在于提供实现上述方法的系统。本专利技术的目的通过下述技术方案实现一种基于信道模式噪声的录音回放攻击检测方法,其特征在于,所述录音回放攻击检测方法包括以下步骤(1)输入待识别语音信号;(2)对语音信号进行预处理;(3)提取预处理后语音信号中的信道模式噪声;(4)提取基于信道模式噪声的长时统计特征;(5)根据信道噪声分类判决模型对长时统计特征进行分类,得到录音回放攻击检测的判决结果。所述步骤( 预处理包括预加重、分帧和加窗。所述步骤(3)包括以下步骤(31)将预处理后的语音信号进行去噪滤波处理;(32)对去噪滤波处理前、后的信号分别进行统计帧分析;(33)将统计帧分析后的两路信号提取对数功率谱,并作减法运算,提取出输入语音信号的信道模式噪声。所述统计帧是对语音信号的短时帧做离散傅里叶变换后,取其中相同频率成分的平均值。所述步骤(4)包括以下步骤(41)提取信道模式噪声的0 5阶Legendre多项式展开系数;(42)提取信道模式噪声的六个统计特征;(43)将上述步骤获得的数值合并成一组12维的长时统计特征矢量,作为录音回放攻击检测的特征矢量。所述步骤0 的六个统计特征为信道模式噪声的最小值、最大值、均值、中值、标准差以及最大值和最小值的差值。所述步骤(5)的信道噪声分类判决模型建立包括如下步骤(51)输入训练语音信号;(52)重复步骤(2) ,得到训练的信道模式噪声的长时统计特征;(53)利用支持向量机(Support Vector Machine, SVM)进行分类,建立信道噪声分类判决模型。实现上述方法的系统,包括——输入模块100,用于输入训练或待识别语音信号;——预处理模块200,用于对语音信号进行预处理,其包括预加重、分帧和加窗单元;——信道模式噪声提取模块300,用于提取预处理后语音信号中的信道模式噪声;——长时统计特征提取模块400,用于提取基于信道模式噪声的长时统计特征;——信道噪声模型模块500,用于将训练的长时统计特征利用SVM进行分类,建立信道噪声分类判决模型;——识别决策模块600,用于利用信道噪声分类判决模型对待识别语音信号的长时统计特征进行分类,得到录音回放攻击检测的判决结果;——输出模块700,用于输出待识别语音信号的判决结果。本专利技术的基本原理是通过提取语言信号的信道模式噪声进行录音回放攻击检测。在说话识别系统中,原始语音是指系统采集用户的原始语音,回放语音指录音回放攻击语音。回放语音在进入说话人识别系统录音信道之前,还经历了一次录音和回放的过程。不同录音和回放设备会引入设备自身不同的信道噪声(麦克风、扬声器、抖动电路、前置放大器、功率放大器、输入和输出滤波器、A\D、D\A、取样保持电路等都会引入相应的噪声),这些信道噪声叠加在回放语音上,使得回放语音和原始语音存在着细微的差异。本专利技术将这些来自不同录音与回放设备中换能器(传声器、扬声器)和不同电路引入的噪声称为信道模式噪声。原始语音中含有系统录音设备的信道模式噪声,而回放语音不仅含有系统的信道模式噪声,还含有偷录设备和回放设备的信道模式噪声,因此提取出待识别语音中的信道模式噪声即可进行录音回放攻击检测。本专利技术通过去噪滤波器提取信道模式噪声,并在信道模式噪声的基础上提取长时统计特征,再利用SVM建立信道噪声模型用以判决说话人识别系统的输入是否为录音回放攻击。本专利技术与现有的录音回放攻击检测方法相比,具有以下的优点和有益效果(1)可以应用于文本相关的说话人识别系统,也可以应用于文本无关的说话人识别系统。(2)对原始语音和回放语音的分类识别可以在说话人识别之前也可以在之后,因此,可以利用信道噪声模型建立前端录音回放攻击检测器或后端录音回放攻击检测器,使得录音回放攻击算法的应用更加灵活。(3)长时统计特征与 MFCC (Mel Frequency Cepstrum Coefficient,Mel 频率倒谱系数)特征相比,特征维数明显减少,在训练阶段,提取特征时,效率明显提高。并且不需要将每次用户进入系统的样本存储下来,节省了大量的存储空间和计算资源。附图说明图1是本专利技术的系统结构图。图2是信道模式噪声提取以及基于信道模式噪本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:贺前华王志锋罗海宇陈芬
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术