当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于振幅和相位信息的录音攻击检测方法技术

技术编号:21456192 阅读:27 留言:0更新日期:2019-06-26 05:30
本发明专利技术公开了一种融合多分辨率振幅和相位信息的录音欺诈检测方法,包括以下步骤:步骤一,选择声纹欺诈检测数据库,进行输入数据准备;步骤二,分别提取振幅和相位信息,采用多分辨率振幅及相位特征提取方法;步骤三,分类模型训练,利用步骤二特征进行区分度模型训练;步骤四,特征融合,充分利用振幅相位特征的互补性;最后,判别决策,输出录音回放分类结果。本发明专利技术的录音攻击检测方法和现有技术相比,考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果。通过提取多分辨率的振幅与相位信息,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性。

【技术实现步骤摘要】
一种基于振幅和相位信息的录音攻击检测方法
本专利技术属于声纹欺诈检测
,尤其是涉及一种基于振幅和相位信息的录音攻击检测方法。
技术介绍
随着智能设备的普及和语音识别技术的快速发展,声纹识别系统的安全性越来越引起公众关注。在面对多种多样的声纹欺诈时,系统变得十分脆弱从而引起性能大大降低。在各种声纹欺诈手段中,录音回放由于其技术的简易性,对系统的威胁最大。因此,提出合理高效的录音欺诈检测方法显得尤为重要。对于声纹欺诈检测问题,比较传统的方法是根据人类的听觉感知提取一些基于听觉的特征,如基频、能量等。这类方法存在的问题是:仅仅依靠人类的先验知识来提取有效的特征是很困难的,而且有些先验知识不是完全正确;另外,人耳并不擅长声纹欺诈检测,根据人耳听觉特性设计的滤波器不能在该任务中有很好的表现。为了解决以上的问题,人们引入了高频段特征。通过高频段特征的提取,相比于基于CQCC(ConstantQCepstralCoefficient)特征的基线系统,录音回放检测的正确率得到了大幅度的提升,但是目前的研究仍然存在2个主要的问题:仅仅依靠振幅信息进行建模,忽略了相位信息的作用,因而不能完整的获取语音的有效信息。应该同时有效结合高频段和低频段信息,而不是单纯关注单一频段信息(高频或低频)。
技术实现思路
本专利技术针对现有录音攻击检测模型在特征提取时忽略相位信息的问题,提出一种基于振幅和相位信息的特征提取方法,从而有效利用相位和振幅信息的互补性。同时,为了探索不同频段信息的互补性,本专利技术提出了基于多分辨率的相位和振幅特征提取方法。为了解决上述技术问题,本专利技术的技术方案如下:一种基于振幅和相位信息的录音攻击检测方法,包括以下步骤:步骤一,输入数据准备:对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。步骤二,特征提取:1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率,提出多种分辨率的振幅特征提取方法。2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,针对不同频段分辨率提出多种分辨率的相位特征提取方法。步骤三,分类模型训练:将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个GaussianMixtureModel分类器,GMMgenuine和GMMspoof。步骤四,特征融合:对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:L=(1-α)L1+αL2,(1)其中L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定。步骤五,判别决策:对于要检测是否为回放录音的测试音频,经过特征提取后,本专利技术通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分。若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。本专利技术所述步骤二中多分辨率相位信息的提取,具体提取过程如下:原始的相位信息会随着输入语音的位裁剪置而变化,即使是在相同的频率下。为了克服这个问题,王等人提出了相对相位(RelativePhase)即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)),(3)对于其他频率ω'=2πf',频谱变成:最后,相位信息可以被归一化,归一化的相位信息如下:进一步,针对原始相对相位特征提取方法本专利技术提出了对不同频段分别使用高分辨率的特征提取方法,即:4)梅尔相对相位(Mel-RelativePhase,Mel-RP):低频区高分辨率。5)倒梅尔相对相位(InverseMel-RelativePhase,Mel-RP,IMel-RP):高频区高分辨率。6)线性相对相位(LinearRelativePhase,LRP):高频段均匀分辨率。mel=0.355*f(8)其中,f表示线性频域刻度,mel表示梅尔域刻度。与现有技术相比,本专利技术的有益效果为:本专利技术考虑到了语音的相位信息,融合录音回放检测相位振幅相关特征,大大的提高了特征的丰富性,获得更好录音攻击检测效果。通过提取多分辨率的振幅与相位信息,有效利用了相位与振幅的互补性,以及相同特征在不同频段的互补性。附图说明图1是本专利技术提出的基于振幅和相位信息的特征提取方法框架图;图2是多分辨率的相位和振幅特征提取方法构成图。图3是本专利技术方法流程图。具体实施方式为了更好地理解本专利技术的技术方案,现结合附图及具体实施方式来对本专利技术进行更进一步详细的描述。本专利技术具体包括以下步骤:步骤一,输入数据准备:对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集。步骤二,特征提取:1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率,提出多种分辨率的振幅特征提取方法。2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,针对不同频段分辨率提出多种分辨率的相位特征提取方法。步骤三,分类模型训练:将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个GaussianMixtureModel分类器,GMMgenuine和GMMspoof。步骤四,特征融合:对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:L=(1-α)L1+αL2,(1)其中L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定。步骤五,判别决策:对于要检测是否为回放录音的测试音频,经过特征提取后,本专利技术通过计算被测试音频与GMMgenuine和GMMspoof似然相似度,最终进行决策评分。若与GMMgenuine更为相似则判定为原始音频;若与GMMspoof具有更高相似度,则为回放音频。本专利技术所述步骤二中多分辨率相位信息的提取,具体提取过程如下:原始的相位信息会随着输入语音的位裁剪置而变化,即使是在相同的频率下。为了克服这个问题,王等人提出了相对相位(RelativePhase)即某个基频ω的相位保持固定,其他频率的相位相对于这个值来估计。比如,设定基频ω的值为0,我们可以得到以下公式:X'(ω)=|X(ω)|×ejθ(ω)×ej(-θ(ω)),(3)对于其他频率ω'=2πf',频谱变成:最后,相位信息可以被归一化,归一化的相位信息如下:进一步,针对原始相对相位特征提取方法本专利技术提出了对不同频段分别使用高分辨率的特征提取方法,即:7)梅尔相对相位(Mel-RelativePhase,Mel-RP):低频区高分辨率。8)倒梅尔相对相位(InverseMel-RelativePhase,Mel-RP,IMel-RP):高频区高分辨率。9)线性相对相位(LinearRelativePhase,LRP):高频段均匀分辨率。mel=0.355*f(8)其中,f表示线性频域刻度,mel表示梅尔域刻度。图1是本专利技术的基于振幅和相位信息的特征提取方法的框架图,主要包含以下步骤:步骤一,输入数据准备:为了验证本专利技术的效果,在ASVs本文档来自技高网...

【技术保护点】
1.一种基于振幅和相位信息的录音攻击检测方法,其特征在于,包括以下步骤:步骤一,输入数据准备:对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;步骤二,特征提取:1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率,提出多种分辨率的振幅特征提取方法;2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,针对不同频段分辨率提出多种分辨率的相位特征提取方法;步骤三,分类模型训练:将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个Gaussian Mixture Model分类器,GMMgenuine和GMMspoof;步骤四,特征融合:对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:L=(1‑α)L1+αL2,      (1)

【技术特征摘要】
1.一种基于振幅和相位信息的录音攻击检测方法,其特征在于,包括以下步骤:步骤一,输入数据准备:对录音回放数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;步骤二,特征提取:1)振幅信息提取:对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率,提出多种分辨率的振幅特征提取方法;2)相位信息提取:基于相对相位提取每一段语音对应的相位信息,针对不同频段分辨率提出多种分辨率的相位特征提取方法;步骤三,分类模型训练:将训练集中录音回放音频和原始声音特征提取后分别作为输入,训练两个GaussianMixtureModel分类器,GMMgenuine和GMMspoof;步骤四,特征融合:对于多分辨率的相位特征和振幅特征分别进行判别决策后,在打分层面进行特征融合,采用线性打分特征融合:L=(1-α)L1+αL2,(1)其中L表示最终打分结果,L1对应相位特征打分结果,L2对应振幅特征打分结果,α表示权重系数,通过验证集打分结果进行确定;步骤五,判别决策:对于要检测是否为回放录音的测试音频,经过特征提取后,通过计算被测试音频与GM...

【专利技术属性】
技术研发人员:王龙标刘猛党建武
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1