一种基于数据增强和预训练模型特征提取的回放语音检测方法技术

技术编号:38729623 阅读:16 留言:0更新日期:2023-09-08 23:20
本发明专利技术公开了一种基于数据增强和预训练模型特征提取的回放语音检测方法,首先基于镜像源ISM的方法生成合成的房间声学冲激响应RIR;在得到房间声学冲激响应RIR后,通过将真实语音与房间声学冲激响应RIR进行卷积,并添加混响和背景噪声来模拟生成回放语音训练集;采用预训练模型wav2vec2.0作为前端特征提取器来提取所述回放语音训练集的声学特征,将提取的声学特征输入到后端的回放语音识别模型RawNet2中,实现回放语音检测。上述方法适合于训练数据缺乏下的模型训练,以及完成鲁棒性的回放语音检测中的识别特征提取,从而达到提高回放语音检测准确率的目的。回放语音检测准确率的目的。回放语音检测准确率的目的。

【技术实现步骤摘要】
一种基于数据增强和预训练模型特征提取的回放语音检测方法


[0001]本专利技术涉及语音信号处理
,尤其涉及一种基于数据增强和预训练模型特征提取的回放语音检测方法。

技术介绍

[0002]说话人识别(speaker recognition)或者声纹识别(voiceprint recognition)技术是一种利用个人声音特性来进行身份识别的生物特征识别技术,随着基于深度学习框架的声纹识别技术的成熟,声纹识别进入实用,已经广泛用于商业、司法技侦和军事安全等领域。另一方面,针对自动声纹识别系统的欺骗攻击的研究也进入到实用阶段,目前针对声纹识别系统的语音欺骗方法主要包括:语音转换(Voice conversion,VC)、语音合成(Text to speech synthesis,TTS)、语音模仿(Impersonation)和语音回放(Replay)。在这些欺骗攻击中,语音回放攻击是造成最大威胁的,此类攻击使用目标说话人的录音回放语音输入到自动声纹识别系统中来伪冒目标说话人,从物理特性上看,与真实人声的差别仅仅是增加了一次信道(麦克风)或者环境的变化。随着基于声纹识别的身份认证系统的不断推广应用,其危害性日益凸显,因此回放语音检测研究变得越来越迫切。
[0003]在回放语音检测中,训练数据的缺乏、模型训练中特征的获取都会严重影响检测的准确率。在回放语音检测的任务中,训练语音和测试语音通常处于不同的环境设置中,导致训练语音与测试语音不匹配,而且在很多实际的应用中,由于没有任何训练集,训练语音只能使用一些开源数据库,在此基础上通过算法的形式来模拟的回放语音。回放语音与正常说话的语音之间的差距仅仅在于多了一次回放然后录音的过程,从技术上说相当于有一个额外的信道差异性加在了原始的语音上面。另外由于真实语音回放、录制场景下设备、采集距离以及背景噪声都是不固定的,并没有一种统一的正常语音和回放语音的差异性的统计上的差别。因此采用神经网络来学习正常语音和回放语音的差别,是目前主流的算法,而对于神经网络而言,训练数据是非常重要的,尤其是在完全没有训练数据的情况下,合理地构建训练集,是模型训练的基础。虽然现有技术中的神经网络能够直接采用现有的语音常规特征比如刻度式梅尔倒谱参数(MFCC)或者谱参数进行建模,甚至直接采用wav波形输入到神经网络中进行建模,但由于正常语音与回放语音在短时的差别上是非常细微的,更多的是一种长时的细微差别;另一方面,由于语音具有短时平稳,很难获得一种广泛使用的可以表征语音的长时特征。

技术实现思路

[0004]本专利技术的目的是提供一种基于数据增强和预训练模型特征提取的回放语音检测方法,该方法适合于训练数据缺乏下的模型训练,以及完成鲁棒性的回放语音检测中的识别特征提取,从而达到提高回放语音检测准确率的目的。
[0005]本专利技术的目的是通过以下技术方案实现的:
[0006]一种基于数据增强和预训练模型特征提取的回放语音检测方法,所述方法包括:
[0007]步骤1、基于镜像源ISM的方法生成合成的房间声学冲激响应RIR;
[0008]步骤2、在得到房间声学冲激响应RIR后,通过将真实语音与房间声学冲激响应RIR进行卷积,并添加混响和背景噪声来模拟生成回放语音训练集;
[0009]步骤3、采用预训练模型wav2vec2.0作为前端特征提取器来提取所述回放语音训练集的声学特征,将提取的声学特征输入到后端的回放语音识别模型RawNet2中,实现回放语音检测。
[0010]由上述本专利技术提供的技术方案可以看出,上述方法适合于训练数据缺乏下的模型训练,以及完成鲁棒性的回放语音检测中的识别特征提取,从而达到提高回放语音检测准确率的目的。
附图说明
[0011]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0012]图1为本专利技术实施例提供的基于数据增强和预训练模型特征提取的回放语音检测方法流程示意图;
[0013]图2为本专利技术实施例所述基于镜像源的方法生成合成的房间声学冲激响应的原理示意图;
[0014]图3为本专利技术实施例所述结合wav2vec2.0的回放语音检测模型的框架示意图。
具体实施方式
[0015]下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,这并不构成对本专利技术的限制。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。
[0016]如图1所示为本专利技术实施例提供的基于数据增强和预训练模型特征提取的回放语音检测方法流程示意图,所述方法包括:
[0017]步骤1、基于镜像源(Image Source Method,ISM)的方法生成合成的房间声学冲激响应(Room Impulse Response,RIR);
[0018]在该步骤中,在回放语音检测的任务中,训练语音和测试语音通常处于不同的环境设置中导致训练语音与测试语音不匹配,为了减少失配的影响,本申请使用不同的环境设置来增强训练语音,使得训练语音尽可能涵盖测试语音的声学环境设置,具体来说:
[0019]基于镜像源ISM的方法是生成房间声学冲激响应RIR的主流方法,基于镜面反射原理,所有反射路径都能通过虚拟的反射声源来建模,但距离与房间内反射路径的长度相对应,如图2所示为本专利技术实施例所述基于镜像源的方法生成合成的房间声学冲激响应的原理示意图,图2中:声源S到5个平面的镜像源为S1~S5,声音路径从每个镜像源连接到接收器R,然后通过检查声音路径是否与生成此镜像源的平面相交来验证,如从S1到R的路径与
平面1不相交,那么它无效;其他4个声音路径有效,可用于分析计算。基于上述原理,根据所需的反射顺序,声源将被多次反射,基于镜像源ISM生成的房间声学冲激响应RIR表示为:
[0020][0021]其中,h[t]表示房间声学冲激响应RIR;t为信号传播时刻,与语音信号x[t]相对应;r是接收器的位置;s是声源的位置;V(r,s)是r和s之间反射的有效镜像源集;c是声速;R(r,s)是r和s之间的累积反射系数。
[0022]步骤2、在得到房间声学冲激响应RIR后,通过将真实语音与房间声学冲激响应RIR进行卷积,并添加混响和背景噪声来模拟生成回放语音训练集;
[0023]在该步骤中,在步骤2中,在得到房间声学冲激响应h[t]后,将非回放语音x[t]与房间声学冲激响应h[t]进行卷积;
[0024]考虑到环境噪声,在卷积之后的声音中添加随机噪声n[t]来仿真真实的录音场景,所得到的回放语音训练集x
spoof
[t]表示为:
[0025][0026]其中,表示卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据增强和预训练模型特征提取的回放语音检测方法,其特征在于,所述方法包括:步骤1、基于镜像源ISM的方法生成合成的房间声学冲激响应RIR;步骤2、在得到房间声学冲激响应RIR后,通过将真实语音与房间声学冲激响应RIR进行卷积,并添加混响和背景噪声来模拟生成回放语音训练集;步骤3、采用预训练模型wav2vec2.0作为前端特征提取器来提取所述回放语音训练集的声学特征,将提取的声学特征输入到后端的回放语音识别模型RawNet2中,实现回放语音检测。2.根据权利要求1所述基于数据增强和预训练模型特征提取的回放语音检测方法,其特征在于,在步骤1中,基于镜面反射原理,所有反射路径都能通过虚拟的反射声源来建模,但距离与房间内反射路径的长度相对应,根据所需的反射顺序,声源将被多次反射,基于镜像源ISM生成的房间声学冲激响应RIR表示为:其中,h[t]表示房间声学冲激响应RIR;t为信号传播时刻,与语音信号x[t]相对应;r是接收器的位置;s是声源的位置;V(r,s)是r和s之间反射的有效镜像源集;c是声速;R(r,s)是r和s之间的累积反射系数。3.根据权利要求2所述基于数据增强和预训练模型特征提...

【专利技术属性】
技术研发人员:郭武吴皓晨
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1