基于重构群延迟-常数Q变换语谱图的声纹欺诈检测方法技术

技术编号:33852498 阅读:7 留言:0更新日期:2022-06-18 10:39
本发明专利技术公开了一种声纹欺诈检测方法,将能量谱经由Q

【技术实现步骤摘要】
基于重构群延迟

常数Q变换语谱图的声纹欺诈检测方法


[0001]本专利技术涉及欺诈语音检测领域,尤其涉及特征处理方面。

技术介绍

[0002]近十年来,基于生物特征进行识别的身份认证技术在日常生活中的作用越来越重要。一些常见的生物特征识别技术,比如指纹识别、人脸识别和声纹识别等,均在多种场景中得到了广泛的应用。然而,任何生物识别系统都存在一定的漏洞,入侵者可以通过模仿和篡改特征等方式对生物识别系统进行欺诈攻击,对生物识别系统的安全性产生了严重的威胁。在生物识别领域,欺诈是指在生物识别系统的传感器上呈现出一个伪造的特征,进而对该系统进行非法攻击。例如,面部识别系统可以被冒认照片欺骗,指纹识别系统可以用塑胶伪造指纹进行欺骗。同理,说话人识别系统也容易受到各种程度的欺诈攻击。
[0003]语音技术已经成为人机交互的重要媒介。例如,现代语音助手可以非常方便地控制各种家用设备和应用程序,但这些设备极易受到欺诈语音的攻击。随着语音技术使用的日益广泛,说话人识别系统的安全问题受到越来越多的关注。欺诈攻击可分为四类:模仿、录音回放、语音合成和语音转换,这四种攻击方式都会严重影响说话人识别系统的性能。
[0004]在语音回放中,语音信号的时频表示必须要有较高的分辨率才能从特定的频谱区域中更好地提取出真实语音和欺骗语音的区别信息。常数Q变换(Constant Q Transform,CQT)指中心频率按指数规律分布,滤波带宽不同、但中心频率与带宽比为常量Q的滤波器组。该方法对较低的频率给出了较高的频率分辨率,对较高的频率给出了较高的时间分辨率。常作为语音欺骗检测中的声学特征。群延迟图特征(Group Delay Spectrogram,GD

gram)同样在语音欺诈检测领域具有显著的效果,因为其同时包含功率谱和相位谱信息,所以该特征能够使真实语音与欺骗语音的区别体现得更加明显。
[0005]现有研究的多种特征,如常数Q倒谱系数、线性频率倒谱系数、基于瞬时频率的耳蜗倒谱系数、单频滤波倒谱系数等特征。均忽视了特征重构的过程。在本专利中,我们用CQT替换GD

gram中的短时傅里叶变换阶段。并对CQT能量谱进行基于常数Q变换修改的离散余弦变换(以下称为Q

DCT)及其逆变换(以下称为Q

IDCT)的特征重构,进而产生最终的重构群延迟

常数Q变换(以下称为RGD

CQT)语谱图特征。

技术实现思路

[0006]针对现有欺诈语音检测方法中忽略特征重构重要性的问题,本专利技术提供了一种声纹欺诈检测方法。先对语音的CQT语谱图进行Q

DCT和Q

IDCT,再进行群延迟计算,求出最终特征;该特征极大程度的保存了语音信号中的人为因素;最后将该特征传入含有注意力机制的残差网络中,对待测语音进行评分,进而检测出一段语音是否是欺诈语音。
[0007]本专利技术的技术方案是:一种声纹欺诈检测方法,基于CQT修改的离散余弦变换压缩数据和基于CQT语谱图修改的群延迟信息进行检测语音欺诈攻击的方法,主要包括以下步骤:
[0008]步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作,使每一个语音序列的长度一致,输出长度为n的语音序列x(n)。
[0009]步骤2、将步骤1中读取的语音序列x(n)作为输入,计算y(n)=x(n)
×
(n+1),n=0,1,...,n。
[0010]步骤3、将步骤1和2中获得的序列x(n)和y(n)进行CQT变换,分别求出语谱图X和语谱图Y,然后将获得的语谱图X和语谱图Y分别提取其实部X
r
,Y
r
和虚部X
i
,Y
i

[0011]步骤4、将步骤3中获得的语谱图X取其能量谱,进行特征重构得到新的语谱图。
[0012]步骤5、将步骤3和步骤4中获得语谱图进行群延迟的计算,得到中间语谱图。
[0013]步骤6、将步骤5中获得的中间语谱图进行归一化、取对数处理,得到RGD

CQT语谱图。
[0014]步骤7、将步骤6中获得的RGD

CQT语谱图传入含有注意力机制的残差网络模型中进行训练,得到最优的网络模型。
[0015]步骤8、将步骤7中获得的最优网络模型作为测试模型,将待测语音传入该模型中,进而判断该语音是否是欺诈语音。
[0016]进一步地,步骤1中所述的预处理操作,是对每一个音频序列进行填充和截取;若序列长度小于规定长度则进行填充操作;若序列长度大于规定长度则进行截取操作,使这些序列的长度一致。
[0017]进一步地,步骤3中获取X
r
,Y
r
,X
i
,Y
i
的计算步骤为:1)对x(n)和y(n)分别进行CQT的计算,得到两个语谱图,语谱图X和语谱图Y。2)取出语谱图X的实部X
r
和虚部X
i
,取出语谱图Y的实部Y
r
和虚部Y
i

[0018]进一步地,步骤4中将语谱图X的能量谱进行特征重构的具体过程为:1)首先提取语谱图X的幅度谱X
mag
;2)对幅度谱中X
mag
每个元素求取平方,求出能量谱S;3)对这个能量谱S进行中值滤波,即把能量谱中每一个像素点的灰度值用该点的一个邻域中各点值的中值代替,从而消除孤立的噪声点。4)最后对能量谱S进行特征重构得到中间语谱图;其中特征重构中的一维Q

DCT推导过程为:
[0019]1)原始的CQT公式为:
[0020][0021]其中,定义加窗后的声音序列为x(n),n=0,1,...,N
k

1,N
k
为第k个频率下的采样点数;X(k)为频谱,Q是中心频率与带宽的比。
[0022]将长度为n的序列x(n)扩展为原来的2倍,{x[

N
k
],x[

N
k
+1],...,x[0],x[1],...,x[N
k

1]};
[0023][0024]其中,x'(m)∈{x[

N
k
],x[

N
k
+1],...,x[0],x[1],...,x[N
k

1]}。
[0025]2)将序列x'(m)向右平移得:
[0026][0027]3)对公式(3)中的取正数,得到以下形式:
[0028][0029]4)令得到以下形式:
[0030][0031]由上述推导过程可知,一维的Q

...

【技术保护点】

【技术特征摘要】
1.一种声纹欺诈检测方法,基于CQT修改的离散余弦变换压缩数据和基于CQT语谱图修改的群延迟信息进行检测语音欺诈攻击的方法,主要包括以下步骤:步骤1、将数据集中的每一个从音频文件中读取的语音序列进行预处理操作,使每一个语音序列的长度一致,输出长度为n的语音序列x(n)。步骤2、将步骤1中读取的语音序列x(n)作为输入,计算y(n)=x(n)
×
(n+1),n=0,1,...,n。步骤3、将步骤1和2中获得的序列x(n)和y(n)进行CQT变换,分别求出语谱图X和语谱图Y,然后将获得的语谱图X和语谱图Y分别提取其实部X
r
,Y
r
和虚部X
i
,Y
i
。步骤4、将步骤3中获得的语谱图X取其能量谱,进行特征重构得到新的语谱图。步骤5、将步骤3和步骤4中获得语谱图进行群延迟的计算,得到中间语谱图。步骤6、将步骤5中获得的中间语谱图进行归一化、取对数处理,得到RGD

CQT语谱图。步骤7、将步骤6中获得的RGD

CQT语谱图传入含有注意力机制的残差网络模型中进行训练,得到最优的网络模型。步骤8、将步骤7中获得的最优网络模型作为测试模型,将待测语音传入该模型中,进而判断该语音是否是欺诈语音。进一步地,步骤1中所述的预处理操作,是对每一个音频序列进行填充和截取;若序列长度小于规定长度则进行填充操作;若序列长度大于规定长度则进行截取操作,使这些序列的长度一致。进一步地,步骤3中获取X
r
,Y
r
,X
i
,Y
i
的计算步骤为:1)对x(n)和y(n)分别进行CQT的计算,得到两个语谱图,语谱图X和语谱图Y。2)取出语谱图X的实部X
r
和虚部X
i
,取出语谱图Y的实部Y
r
和虚部Y
i
。进一步地,步骤4中将语谱图X的能量谱进行特征重构的具体过程为:1)首先提取语谱图X的幅度谱X
mag
;2)对幅度谱中X
mag
每个元素求取平方,求出能量谱S;3)对这个能量谱S进行中值滤波,即把能量谱中每一个像素点的灰度值用该点的一个邻域中各点值的中值代替,从而消除孤立的噪声点。4)最后对能量谱S进行特征重构得到中间语谱图;其中特...

【专利技术属性】
技术研发人员:陈晨宋耀祖代博涵何勇军陈德运
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1