当前位置: 首页 > 专利查询>宁波大学专利>正文

一种回放语音检测方法技术

技术编号:19748271 阅读:22 留言:0更新日期:2018-12-12 05:15
本发明专利技术公开了一种回放语音检测方法,其在训练阶段,先获取语音数据库中的每个语音样本的第一变异系数向量和归一化第一倒谱特征矩阵、第二变异系数向量和归一化第二倒谱特征矩阵,作为四种特征;然后将所有正样本的四种特征分别输入到GMM模型中进行训练,得到四个正样本特征模型,同样获取四个负样本特征模型;在测试阶段,以相同方式获取待检测的语音的四种特征,将每种特征分别输入到对应的正样本特征模型和负样本特征模型中,获得四个似然比得分;根据四个似然比得分得到最终得分,通过比较最终得分与判定阈值,判定是否为回放语音;优点是其检测的等错误概率较低、鲁棒性较强、计算复杂度相对较低,且不仅仅局限于文本相关的声纹认证系统。

【技术实现步骤摘要】
一种回放语音检测方法
本专利技术涉及一种语音检测技术,尤其是涉及一种回放语音检测方法。
技术介绍
在生物识别
,声纹识别系统因安全性较高、获取较为方便,在生活领域、金融领域以及司法领域得到了广泛应用。声纹识别技术不断发展的同时,各种仿冒语音对声纹识别系统的攻击也日趋严峻。在过去的几年中,研究人员对仿冒语音的检测主要集中在合成语音和转换语音上,一定程度上忽视了回放语音对声纹识别系统的攻击。事实上,首先,由于回放语音是通过真实声音直接录音得到的,因此其比合成语音和转换语音更具有威胁性;其次,回放语音相较于其他仿冒语音获取更为方便,仅仅需要一部录音设备就可以完成回放语音的获取,并且不需要伪造者有较高的专业技能,更为仿冒者提供了便利,同时近些年高保真设备的普及化和便携化,更是极大地提升了回放语音对声纹识别系统的威胁。对于回放语音检测,国内的相关研究工作相对较少。早期的研究工作由张利鹏等人通过对语音静音段建模从而提出了一种基于语音静音段的检测算法,通过对该算法的研究发现,尽管该算法对回放语音的检测有一定的性能,但是该算法中由于使用的静音段幅度较小从而容易受到背景噪声污染,因此该算法有一定的局限性。而王志峰等人通过探究回放语音产生的机理,通过分析不同设备引入的噪声差异,提出了一种基于信道模式噪声的录音回放检测算法,该算法尽管有很好的检测效果,但是其实验只采用了一种录音设备和回放设备,因此该算法的鲁棒性有待考究。此外,国外的研究诸如Shang和Stevenson等人利用语音产生的随机性提出了一种检测待测语音和合法语音在峰值图上的相似度的算法,该算法只能够应用于文本相关的声纹认证系统。在一种检测待测语音和合法语音在峰值图上的相似度的算法的基础上,JakubGalka等人在峰值图特性上加入了各频率点的位置关系,进一步提升了声纹认证系统抗回放语音的性能,但是该算法依旧局限于文本相关的声纹认证系统。近年来,TodiscoM和DelgadoH等人在2016年提出了一种基于常Q变换的CQCC(ConstantQCepstralCoefficients)特征,尽管其对回放语音的检测有一定的效果,但是检测准确率还有待提升。JiZ等人使用多种组合特征以及集成分类器思想,将回放语音的检测的等错误概率降低到20%左右,但是该算法的复杂度极高。LantianLi等人通过使用F-ratio方法分析真实语音和回放语音的差异,提出了I-MFCC方法用于回放语音检测,实验表明,这种特征尽管有一定的检测效果,但此特征的鲁棒性较差。
技术实现思路
本专利技术所要解决的技术问题是提供一种回放语音检测方法,其检测的等错误概率较低、鲁棒性较强、计算复杂度相对较低,且不仅仅局限于文本相关的声纹认证系统。本专利技术解决上述技术问题所采用的技术方案为:一种回放语音检测方法,其特征在于包括以下步骤:步骤一:选取Nreal个时长大于或等于1秒且各不相同的真实语音;然后获取每个真实语音对应的若干个回放语音;再将每个真实语音作为正样本,将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本,由所有正样本和所有负样本构成语音数据库,语音数据库中的正样本的个数为Nreal个、负样本的个数为Nback个,即语音数据库中的语音样本的个数为Nreal+Nback;其中,Nreal≥500,Nreal≤Nback≤Nreal(1+pr),0≤pr≤13%;步骤二:基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第一倒谱特征矩阵记为其中,nsa为正整数,1≤nsa≤Nreal+Nback,为列向量,的维数为L1,frame×1,L1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧长,和的维数为13×N1,frame,N1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧数;基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第二倒谱特征矩阵记为其中,为列向量,的维数为L2,frame×1,L2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧长,和的维数为90×N2,frame,N2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧数,N2,frame≠N1,frame;步骤三:将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一正样本特征模型;将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二正样本特征模型;将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三正样本特征模型;将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四正样本特征模型;同样,将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一负样本特征模型;将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二负样本特征模型;将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三负样本特征模型;将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四负样本特征模型;步骤四:取一个待检测的语音,记为Ytest;然后按照步骤二的过程,以相同的方式获得Ytest的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵,对应记为和及和其中,的维数为Ltest,1,frame×1,Ltest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧长,的维数为13×Ntest,1,frame,Ntest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧数,的维数为Ltest,2,frame×1,Ltest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧长,的维数为90×Ntest,2,frame,Ntest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧数,Ntest,2,frame≠Ntest,1,frame;步骤五:将分别输入到第一正样本特征模型和第一负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第一似然比得分;将分别输入到第二正样本特征模型和第二负样本特征模本文档来自技高网
...

【技术保护点】
1.一种回放语音检测方法,其特征在于包括以下步骤:步骤一:选取Nreal个时长大于或等于1秒且各不相同的真实语音;然后获取每个真实语音对应的若干个回放语音;再将每个真实语音作为正样本,将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本,由所有正样本和所有负样本构成语音数据库,语音数据库中的正样本的个数为Nreal个、负样本的个数为Nback个,即语音数据库中的语音样本的个数为Nreal+Nback;其中,Nreal≥500,Nreal≤Nback≤Nreal(1+pr),0≤pr≤13%;步骤二:基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为

【技术特征摘要】
1.一种回放语音检测方法,其特征在于包括以下步骤:步骤一:选取Nreal个时长大于或等于1秒且各不相同的真实语音;然后获取每个真实语音对应的若干个回放语音;再将每个真实语音作为正样本,将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本,由所有正样本和所有负样本构成语音数据库,语音数据库中的正样本的个数为Nreal个、负样本的个数为Nback个,即语音数据库中的语音样本的个数为Nreal+Nback;其中,Nreal≥500,Nreal≤Nback≤Nreal(1+pr),0≤pr≤13%;步骤二:基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第一倒谱特征矩阵记为其中,nsa为正整数,1≤nsa≤Nreal+Nback,为列向量,的维数为L1,frame×1,L1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧长,和的维数为13×N1,frame,N1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧数;基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第二倒谱特征矩阵记为其中,为列向量,的维数为L2,frame×1,L2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧长,和的维数为90×N2,frame,N2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧数,N2,frame≠N1,frame;步骤三:将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一正样本特征模型;将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二正样本特征模型;将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三正样本特征模型;将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四正样本特征模型;同样,将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一负样本特征模型;将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二负样本特征模型;将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三负样本特征模型;将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四负样本特征模型;步骤四:取一个待检测的语音,记为Ytest;然后按照步骤二的过程,以相同的方式获得Ytest的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵,对应记为和及和其中,的维数为Ltest,1,frame×1,Ltest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧长,的维数为13×Ntest,1,frame,Ntest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧数,的维数为Ltest,2,frame×1,Ltest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧长,的维数为90×Ntest,2,frame,Ntest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧数,Ntest,2,frame≠Ntest,1,frame;步骤五:将分别输入到第一正样本特征模型和第一负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第一似然比得分;将分别输入到第二正样本特征模型和第二负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第二似然比得分;将分别输入到第三正样本特征模型和第三负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第三似然比得分;将分别输入到第四正样本特征模型和第四负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第四似然比得分;然后计算Ytest的第一似然比得分、第二似然比得分、第三似然比得分和第四似然比得分中的至少两个似然比得分的平均分,并将计算得到的平均分作为Ytest的最终得分;再比较Ytest的最终得分与设定的判定阈值,如果Ytest的最终得分大...

【专利技术属性】
技术研发人员:王让定林朗严迪群胡君
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1