当前位置: 首页 > 专利查询>天津大学专利>正文

基于注意力机制特征的合成语音检测方法技术

技术编号:27312570 阅读:20 留言:0更新日期:2021-02-10 09:38
本发明专利技术涉及合成语音和转换语音检测领域,为提高说话人认证欺诈语音检测ASVspoof系统的鲁棒性,在语音特征提取的过程中强化语音中的清音部分,削弱语音中的浊音部分,从而提高该特征在自动说话人系统欺诈攻击检测的鲁棒性,本发明专利技术,基于注意力机制特征的合成语音检测方法,通过注意力机制算法为每一条试验语音训练相应的权重矩阵,通过短时能力和过零率之比既能筛选出分帧后的数据否为清浊音;然后再将筛选出的清音数据和原始数据进行打分,从而突出清音部分的数据,削弱浊音部分的数据;再把之后的特征分别训练真实的高斯混合模型和欺诈语音高斯混合模型,并进行打分确认。本发明专利技术主要应用于合成语音和转换语音场合。明主要应用于合成语音和转换语音场合。明主要应用于合成语音和转换语音场合。

【技术实现步骤摘要】
基于注意力机制特征的合成语音检测方法


[0001]本专利技术涉及合成语音和转换语音检测领域,基于清音和浊音在合成语音检测任务中的重要性不同,所设计的一种基于注意力机制的特征,该特征在辨别真实语音与欺诈语音(合成语音和转换语音)中表现出良好的鲁棒性。

技术介绍

[0002]近年来,随着说话人识别技术的日益成熟,自动说话人认证(ASV)系统已经被广泛应用于各种场景中,如语音助理、网上银行等。然而,许多研究揭示了说话人认证系统容易受不同欺骗攻击的脆弱性。这些欺骗攻击包括:合成语音和转换语音。
[0003]随着语音合成和语音转换技术的发展与成熟,使得合成和转换之后的语音越来越真实,甚至人耳很难辨别语音的真实性。这给说话人识别系统带来了很大的安全隐患。为了避免不法分子通过语音合成或语音转换技术实施违法犯罪行为,Interspeech赛方自2015年至2019年举办了三届说话人认证欺诈语音检测(ASVspoof)挑战赛,因此该领域受到了越来越多人们的关注,从而也提出了非常多的解决方案。
[0004]该领域主要通过对前端特征提取和后端分类器的改进来提升说话人认证欺诈语音检测系统(ASVspoof)的鲁棒性。在特征提取的层面,前人使用了梅尔倒谱系数特征Mel-frequency cepstral coefficients(MFCC)、线性倒谱系数特征linear-frequency cepstral coefficients(LFCC)、常数Q倒谱系数特征constant-Q cepstral coefficient(CQCC)等等,同时群延迟相位特征Modified Group Delay(MGD)也被广泛使用。目前实验结果表明,相位特征具有更高的鲁棒性。在分类器方面,早期高斯混合模型Gaussian Mixture Model(GMM)和支持向量机模型Support Vector Machine(SVM)被广泛使用。目前效果最佳的分类器是残差神经网络Residual Convolutional Neural Network Model(ResNet)模型。
[0005]除了在特征和分类器方面,很多研究者分析了噪音和混响对合成语音检测的影响,不同音素在合成语音检测的影响和说话人及其说话内容的研究和分析等等。

技术实现思路

[0006]为克服现有技术的不足,本专利技术的目的在于通过提出一种新型特征提高说话人认证欺诈语音检测ASVspoof系统的鲁棒性。本专利技术提出的一种注意力机制,该机制在语音特征提取的过程中强化了语音中的清音部分,削弱了语音中的浊音部分,从而提高该特征在自动说话人系统欺诈攻击检测的鲁棒性。为此,本专利技术采取的技术方案是,基于注意力机制特征的合成语音检测方法,通过注意力机制算法为每一条试验语音训练相应的权重矩阵,通过短时能力和过零率之比既能筛选出分帧后的数据否为清浊音;然后再将筛选出的清音数据和原始数据进行打分,从而突出清音部分的数据,削弱浊音部分的数据;再把之后的特征分别训练真实的高斯混合模型和欺诈语音高斯混合模型,并进行打分确认。
[0007]具体步骤如下:
[0008]步骤一,数据准备:
[0009]首先将语料库中的数据划分为训练集、验证集、测试集,训练集用来训练模型,验证集用来检测模型训练的好坏,测试集用来验证模型的鲁棒性;
[0010]步骤二,语音信号处理:
[0011]对语音信号进行预加重、分帧、加窗处理,并通过傅立叶变换得到语音信号的语谱图信息,语音信号预加重是为了对语音的高频部分进行加重,增强高频部分的分辨率;分帧的目的是为了得到平稳的信号,从而符合傅立叶变换的要求;
[0012]步骤三,权重矩阵训练:
[0013]首先通过短时能量和过零率提取出语音信号中是清音的帧,其次使用欧式距离计算语音信号中的每一帧与提取出清音帧的相似度,如果计算原始语音中的清音帧与提取出的清音帧的相似度,其对应的权重矩阵的值会比较大,如果计算原始语音中的浊音帧与提取出得清音帧的相似度,那么其对应的权重矩阵的值会比较小;最后将得到的权重矩阵与原始语音的语谱图代表的矩阵做点乘运算即得到最后的注意力特征;
[0014]步骤四,分类模型训练
[0015]将训练集中真实数据的语谱特征和欺诈数据的语谱特征作为高斯混合模型GMM模型的输入数据,分别训练得到真实语音的GMM模型和欺诈语音的GMM模型。
[0016]步骤五,真假辨认打分
[0017]将开发集数据提取得到的语谱特征输入到训练好的模型中,使用最大似然比打分,判断出语音信号的真实性。
[0018]权重矩阵训练详细步骤如下:
[0019]1)提取清音帧:使用短时能量和过零率的比值来判断清音帧和浊音帧。
[0020]每一帧语音信号的短时能量计算公式如下:
[0021][0022]其中x(m)为分帧信号,w(m)为窗口函数,每一帧的过零率,计算公式如下:
[0023][0024]其中,sgn(n)为符号函数:
[0025][0026]计算短时能量与过零率的比EZR,当EZR大于0.02,则该帧信号为浊音信号,当EZR大于0.002且小于0.02时,则该帧信号为清音信号,否则为静音;
[0027]2)计算权重矩阵:
[0028]通过计算原始语音的每一帧语音信号与上一步提取出的清音帧信号的相似度,得出权重矩阵中相应的权值,计算公式如下:
[0029][0030]其中S代表原始语音帧信号,U代表从原始语音中提取的清音帧信号,m为原始语音信号帧的个数,n代表清音段帧的个数;
[0031]3)动态特征提取:
[0032]在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取,公式如下,其中p=2。
[0033][0034][0035]本专利技术的特点及有益效果是:
[0036]本专利技术使用注意力机制使得语音信号的清音部分得到强化,浊音部分得到弱化,从而提取了基于清浊音导向的注意力机制的特征,该基于注意力机制特征(LFCC-USE)相比于基线系统特征—线性倒谱系数特征LFCC(baseline)EER提升41.4%,t-DCF相对提升40.2%。
[0037]结果表明,该方法达到了良好的声纹识别效果。等错误率和串联评估检测成本函数得到了一定降低。这表明基于清浊音导向的注意力机制的特征能使最后训练得到的模型更加鲁棒。
附图说明:
[0038]图1提取语音信号中的清音段流程图。
[0039]图2注意力权重矩阵提取示意图。
具体实施方式
[0040]本专利技术的目的在于通过提出一种新型特征提高ASVspoof系统的鲁棒性。Gajan Suthokumar等人发现在ASVspoof2017语料库中,清音相比与浊音携带更多的辨别信息。因此,本文提出了一种注意力机制,该机制在语音特征提取的过程中强化了语音中的清音部分,削弱了语音中的浊音部分,从而提高该特征在自动说话人系统欺诈攻击本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制特征的合成语音检测方法,其特征是,通过注意力机制算法为每一条试验语音训练相应的权重矩阵,通过短时能力和过零率之比既能筛选出分帧后的数据否为清浊音;然后再将筛选出的清音数据和原始数据进行打分,从而突出清音部分的数据,削弱浊音部分的数据;再把之后的特征分别训练真实的高斯混合模型和欺诈语音高斯混合模型,并进行打分确认。2.如权利要求1所述的基于注意力机制特征的合成语音检测方法,其特征是,具体步骤如下:步骤一,数据准备:首先将语料库中的数据划分为训练集、验证集、测试集,训练集用来训练模型,验证集用来检测模型训练的好坏,测试集用来验证模型的鲁棒性;步骤二,语音信号处理:对语音信号进行预加重、分帧、加窗处理,并通过傅立叶变换得到语音信号的语谱图信息,语音信号预加重是为了对语音的高频部分进行加重,增强高频部分的分辨率;分帧的目的是为了得到平稳的信号,从而符合傅立叶变换的要求;步骤三,权重矩阵训练:首先通过短时能量和过零率提取出语音信号中是清音的帧,其次使用欧式距离计算语音信号中的每一帧与提取出清音帧的相似度,如果计算原始语音中的清音帧与提取出的清音帧的相似度,其对应的权重矩阵的值会比较大,如果计算原始语音中的浊音帧与提取出得清音帧的相似度,那么其对应的权重矩阵的值会比较小;最后将得到的权重矩阵与原始语音的语谱图代表的矩阵...

【专利技术属性】
技术研发人员:靳嘉宇魏建国应翔
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1