一种基于振幅和相位信息的录音攻击检测方法技术

技术编号：21456192 阅读：27 留言：0更新日期：2019-06-26 05:30

本发明专利技术公开了一种融合多分辨率振幅和相位信息的录音欺诈检测方法，包括以下步骤：步骤一，选择声纹欺诈检测数据库，进行输入数据准备；步骤二，分别提取振幅和相位信息，采用多分辨率振幅及相位特征提取方法；步骤三，分类模型训练，利用步骤二特征进行区分度模型训练；步骤四，特征融合，充分利用振幅相位特征的互补性；最后，判别决策，输出录音回放分类结果。本发明专利技术的录音攻击检测方法和现有技术相比，考虑到了语音的相位信息，融合录音回放检测相位振幅相关特征，大大的提高了特征的丰富性，获得更好录音攻击检测效果。通过提取多分辨率的振幅与相位信息，有效利用了相位与振幅的互补性，以及相同特征在不同频段的互补性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于振幅和相位信息的录音攻击检测方法
本专利技术属于声纹欺诈检测
，尤其是涉及一种基于振幅和相位信息的录音攻击检测方法。
技术介绍
随着智能设备的普及和语音识别技术的快速发展，声纹识别系统的安全性越来越引起公众关注。在面对多种多样的声纹欺诈时，系统变得十分脆弱从而引起性能大大降低。在各种声纹欺诈手段中，录音回放由于其技术的简易性，对系统的威胁最大。因此，提出合理高效的录音欺诈检测方法显得尤为重要。对于声纹欺诈检测问题，比较传统的方法是根据人类的听觉感知提取一些基于听觉的特征，如基频、能量等。这类方法存在的问题是：仅仅依靠人类的先验知识来提取有效的特征是很困难的，而且有些先验知识不是完全正确；另外，人耳并不擅长声纹欺诈检测，根据人耳听觉特性设计的滤波器不能在该任务中有很好的表现。为了解决以上的问题，人们引入了高频段特征。通过高频段特征的提取，相比于基于CQCC(ConstantQCepstralCoefficient)特征的基线系统，录音回放检测的正确率得到了大幅度的提升，但是目前的研究仍然存在2个主要的问题：仅仅依靠振幅信息进行建模，忽略了相位信息的作用，因而不能完整的获取语音的有效信息。应该同时有效结合高频段和低频段信息，而不是单纯关注单一频段信息(高频或低频)。
技术实现思路
本专利技术针对现有录音攻击检测模型在特征提取时忽略相位信息的问题，提出一种基于振幅和相位信息的特征提取方法，从而有效利用相位和振幅信息的互补性。同时，为了探索不同频段信息的互补性，本专利技术提出了基于多分辨率的相位和振幅特征提取方法。为了解决上述技术问题，本专利技术的技术方...

【技术保护点】
1.一种基于振幅和相位信息的录音攻击检测方法，其特征在于，包括以下步骤：步骤一，输入数据准备：对录音回放数据库中的语音信号进行数据准备，划分训练集、验证集、测试集；步骤二，特征提取：1)振幅信息提取：对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率，提出多种分辨率的振幅特征提取方法；2)相位信息提取：基于相对相位提取每一段语音对应的相位信息，针对不同频段分辨率提出多种分辨率的相位特征提取方法；步骤三，分类模型训练：将训练集中录音回放音频和原始声音特征提取后分别作为输入，训练两个Gaussian Mixture Model分类器，GMMgenuine和GMMspoof；步骤四，特征融合：对于多分辨率的相位特征和振幅特征分别进行判别决策后，在打分层面进行特征融合，采用线性打分特征融合：L＝(1‑α)L1+αL2, (1)

【技术特征摘要】
1.一种基于振幅和相位信息的录音攻击检测方法，其特征在于，包括以下步骤：步骤一，输入数据准备：对录音回放数据库中的语音信号进行数据准备，划分训练集、验证集、测试集；步骤二，特征提取：1)振幅信息提取：对语音信号分帧、加窗、短时傅里叶变换,针对不同频段采用不同分辨率，提出多种分辨率的振幅特征提取方法；2)相位信息提取：基于相对相位提取每一段语音对应的相位信息，针对不同频段分辨率提出多种分辨率的相位特征提取方法；步骤三，分类模型训练：将训练集中录音回放音频和原始声音特征提取后分别作为输入，训练两个GaussianMixtureModel分类器，GMMgenuine和GMMspoof；步骤四，特征融合：对于多分辨率的相位特征和振幅特征分别进行判别决策后，在打分层面进行特征融合，采用线性打分特征融合：L＝(1-α)L1+αL2,(1)其中L表示最终打分结果，L1对应相位特征打分结果，L2对应振幅特征打分结果，α表示权重系数，通过验证集打分结果进行确定；步骤五，判别决策：对于要检测是否为回放录音的测试音频，经过特征提取后，通过计算被测试音频与GM...

【专利技术属性】
技术研发人员：王龙标，刘猛，党建武，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人