当前位置: 首页 > 专利查询>宁波大学专利>正文

一种归一化常Q倒谱特征的回放语音检测方法技术

技术编号:20162426 阅读:22 留言:0更新日期:2019-01-19 00:15
本发明专利技术提供一种高鲁棒性的归一化常Q倒谱特征的回放语音检测方法,包括提取原始语音和回放语音的语音信息X(n)的声学特征CQCC系数;对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;将该系数置于混合高斯模型中进行训练,得到原始语音模型和回放语音模型;提取待测语音的语音信息X(n)的声学特征CQCC系数;对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。

【技术实现步骤摘要】
一种归一化常Q倒谱特征的回放语音检测方法
本专利技术涉及回放语音的检测识别方法,具体是指一种归一化常Q倒谱特征的回放语音检测方法。
技术介绍
随着现代社会的不断发展,信息安全问题日显突出,其中身份认证在信息安全防护中承担着至关重要的作用。密码是最常见的身份认证方式之一,但其存在容易被遗忘、安全性低等问题,因此国内外学者提出了将人体特征应用于身份认证的生物识别技术,而声纹识别技术就是其中之一。相较于指纹、人脸等生物认证方式,声纹具有易采集、可远程等特点,因而被广泛应用于公安、金融等领域。近年来,随着语音处理技术的快速发展,出现了诸如合成转换、电子变调以及录音回放等声纹伪造攻击手段,对基于声纹的身份认证系统构成了严重威胁。其中录音回放攻击是一种简单且易操作的攻击手段,攻击者通过隐蔽性较高的录音设备,对目标说话人的语音进行偷录,并以偷录的语音来欺骗声纹认证系统。这类攻击由于不需要对回放语音进行额外的操作,从而避免了因修改语音而留下操作痕迹,同时回放语音与原始语音具有较高的相似度,现有的声纹认证系统通常无法正确判断两者之间的差别。现有技术中针对回放语音的检测方法,按检测原理的不同,可以分为基于语音产生随机性的方法、基于语音信道特性的方法以及基于深度学习的方法:由于同一个人在不同时刻说出相同的内容所产生的语音信息存在较大的随机性,Shang等人提出了一种基于语音产生随机性的回放语音检测算法,该算法通过比较原始语音与待测语音在波峰图上的差异,判断其是否为回放语音,在随后的研究中,作者又通过得分归一化的方法对检测算法进行了改进;JakubGalka等则在Shang算法的基础上,将波峰图中各频率点的位置关系作为检测特征,但该方法只能应用于文本相关的声纹识别系统中,且检测时长较长,局限性较大;此外,由于回放语音在录制过程中会经过偷录设备的编码和回放设备的解码等环节,同时还会受到偷录时周围环境的影响,因此相比于原始语音会引入更多的失真,基于此,出现了基于语音产生信道的回放语音检测算法,如Zhang利用回放语音的失真现象,提出了一种基于静音段梅尔倒谱系数对语音信道进行建模的方法,通过比较待测语音的信道与已建立的模型,进而判断待测语音是否为回放语音;王志峰着重研究低频段的信道噪声,提取了6阶Legendre多项式系数及系数所对应的统计特征,在此基础上利用SVM训练噪声分类模型,并得到了很好的分类结果;近年来,随着深度学习在计算机视觉、自然语言处理等领域的广泛应用,也有相关学者将尝试将该技术应用于回放语音的检测,Lin等通过基于电网频率(ENF)的分析对特征进行预处理,并用卷积神经网络(CNN)对原始语音和回放语音进行训练和分类,由于ENF仅存在于由电网供电的偷录设备中(比如录音机),同时ENF信号提取的准确性会极大地影响检测方法的性能,因此该方法应用范围有较大的局限性。综上所述,现有技术中所提出的检测方法往往面临需要文本相关、检测时间长等问题,且很少有关于多种翻录回放设备或是不同环境下回放的检测方法。但随着电子设备小型化多样化的发展,实际场景中,声纹认证系统将面临多种录音回放设备的攻击,而不同的设备可能对系统的性能产生不同的影响。鉴于此,有必要提供一种高准确率、高鲁棒性、且高效的回放语音检测方法。
技术实现思路
本专利技术所要解决的技术问题在于克服现有技术的缺陷而提供一种高准确率、高鲁棒性、且高效的归一化常Q倒谱特征的回放语音检测方法。本专利技术的技术问题通过以下技术方案实现:一种归一化常Q倒谱特征的回放语音检测方法,包括以下步骤:S1:提取原始语音和回放语音的语音信息X(n)的声学特征常Q倒谱系数(CQCC);S2:对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;S3:分别将原始语音和回放语音归一化的CQCC系数置于混合高斯模型(GMM)中进行训练,得到原始语音模型和回放语音模型;S4:提取待测语音的语音信息X(n)的声学特征CQCC系数;S5:对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;S6:将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。进一步地,步骤S1中,提取CQCC系数包括对语音信息X(n)做CQT变换得到XCQT(k),计算功率谱得到|XCQT(k)|2,进行对数变换得到log|XCQT(k)|2,进行均匀重采样得到log|XCQT(i)|2,进行DCT变换得到CQCC(p).进一步地,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练得到语音模型,还包括使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行话和高斯模型估计。进一步地,步骤S1中,提取所述语音信息X(n)的CQCC系数包括:S1.1:对语音信息X(n)进行常Q变化(CQT),公式为其中,k=1,2,…,K为序列CQ谱的频域下标,Nk为窗口长度,基函数ak*(n)为复数时频原子,与窗口大小有关,比如Hamming窗,定义ω(t)使用Hamming窗,fk为中心频率,fs为采样频率,fk=f0·2k/b,常量b表示时间分辨率和频率分辨率的权衡,f0为CQ谱中的最小频率,定义带宽Bk=fk+1-fk=fk(21/b-1),定义常数则窗口长度S1.2:对经过CQT的语音信息X(n)进行提取CQCC系数,公式为其中,q为CQCC系数的下标,i=0,1,…,K-1是XCQ在线性分布所对应的下标。进一步地,步骤S2中,对CQCC系数进行倒谱均值和方差归一化处理包括:定义Xt为t时刻的K维倒谱特征向量,Xt(i)代表Xt的第i个分量,X={x1,x2,…,xt,…,xT}代表长度为T的语音段,则其中,均值为μML,方差为σ,进一步地,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练,使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行混合高斯模型估计包括:设训练样本的特征向量为{x1,x2,x3,…,xN},其模型参数集的似然度其中,每个状态的概率密度函数bi(xn)为:其中R是特征向量的维数,函数bi(xn)是R维的高斯概率密度函数,具有依赖于状态的均值矢量ui和协方差均值∑i|;根据期望最大化算法,计算使P(X|λk+1)≥P(X|λk)成立的一组最大λ值,最大期望值将所述最大期望值迭代直至收敛至局部最优解。进一步地,步骤S6中,将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配的公式为:其中,P(X|s=s0)表示待测语音归一化的CQCC系数与回放语音模型的匹配度,P(X|s=s1)表示待测语音归一化的CQCC系数与原始语音模型的匹配度。与现有技术相比,本专利技术的优点在于:(1)采用CQCC系数用以表征语音信息的声学特征,CQCC系数是一种被认为可以取代梅尔倒谱系数(MFCC)的新特征,其结合了CQT和倒谱分析,提供了一种与人类感知更密切相关的时频分析方法。与传统的离散傅里叶变化(DFT)相比,CQCC系数倾向于在较低的频率捕获更多的语音信息,而在较高的频率捕获更多的本文档来自技高网
...

【技术保护点】
1.一种归一化常Q倒谱特征的回放语音检测方法,其特征在于包括以下步骤:S1:提取原始语音和回放语音的语音信息X(n)的声学特征常Q倒谱系数(CQCC);S2:对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;S3:分别将原始语音和回放语音归一化的CQCC系数置于混合高斯模型(GMM)中进行训练,得到原始语音模型和回放语音模型;S4:提取待测语音的语音信息X(n)的声学特征CQCC系数;S5:对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;S6:将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。

【技术特征摘要】
1.一种归一化常Q倒谱特征的回放语音检测方法,其特征在于包括以下步骤:S1:提取原始语音和回放语音的语音信息X(n)的声学特征常Q倒谱系数(CQCC);S2:对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;S3:分别将原始语音和回放语音归一化的CQCC系数置于混合高斯模型(GMM)中进行训练,得到原始语音模型和回放语音模型;S4:提取待测语音的语音信息X(n)的声学特征CQCC系数;S5:对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;S6:将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。2.根据权利要求1所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S1中,提取CQCC系数包括对语音信息X(n)做CQT变换得到XCQT(k),计算功率谱得到|XCQT(k)|2,进行对数变换得到log|XCQT(k)|2,进行均匀重采样得到log|XCQT(i)|2,进行DCT变换得到CQCC(p).3.根据权利要求2所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练得到语音模型,还包括使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行话和高斯模型估计。4.根据权利要求3所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S1中,提取所述语音信息X(n)的CQCC系数包括:S1.1:对语音信息X(n)进行常Q变化(CQT),公式为其中,k=1,2,…,K为序列CQ谱的频域下标,Nk为窗口长度,基函数ak*(n...

【专利技术属性】
技术研发人员:劳灵杰叶勇超严迪群林朗
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1