基于注意力机制特征的合成语音检测方法技术

技术编号：27312570 阅读：20 留言：0更新日期：2021-02-10 09:38

本发明专利技术涉及合成语音和转换语音检测领域，为提高说话人认证欺诈语音检测ASVspoof系统的鲁棒性，在语音特征提取的过程中强化语音中的清音部分，削弱语音中的浊音部分，从而提高该特征在自动说话人系统欺诈攻击检测的鲁棒性，本发明专利技术，基于注意力机制特征的合成语音检测方法，通过注意力机制算法为每一条试验语音训练相应的权重矩阵，通过短时能力和过零率之比既能筛选出分帧后的数据否为清浊音；然后再将筛选出的清音数据和原始数据进行打分，从而突出清音部分的数据，削弱浊音部分的数据；再把之后的特征分别训练真实的高斯混合模型和欺诈语音高斯混合模型，并进行打分确认。本发明专利技术主要应用于合成语音和转换语音场合。明主要应用于合成语音和转换语音场合。明主要应用于合成语音和转换语音场合。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力机制特征的合成语音检测方法

[0001]本专利技术涉及合成语音和转换语音检测领域，基于清音和浊音在合成语音检测任务中的重要性不同，所设计的一种基于注意力机制的特征，该特征在辨别真实语音与欺诈语音(合成语音和转换语音)中表现出良好的鲁棒性。

技术介绍

[0002]近年来，随着说话人识别技术的日益成熟，自动说话人认证(ASV)系统已经被广泛应用于各种场景中，如语音助理、网上银行等。然而，许多研究揭示了说话人认证系统容易受不同欺骗攻击的脆弱性。这些欺骗攻击包括：合成语音和转换语音。
[0003]随着语音合成和语音转换技术的发展与成熟，使得合成和转换之后的语音越来越真实，甚至人耳很难辨别语音的真实性。这给说话人识别系统带来了很大的安全隐患。为了避免不法分子通过语音合成或语音转换技术实施违法犯罪行为，Interspeech赛方自2015年至2019年举办了三届说话人认证欺诈语音检测(ASVspoof)挑战赛，因此该领域受到了越来越多人们的关注，从而也提出了非常多的解决方案。
[0004]该领域主要通过对前端特征提取和后端分类器的改进来提升说话人认证欺诈语音检测系统(ASVspoof)的鲁棒性。在特征提取的层面，前人使用了梅尔倒谱系数特征Mel-frequency cepstral coefficients(MFCC)、线性倒谱系数特征linear-frequency cepstral coefficients(LFCC)、常数Q倒谱系数特征constant-Q cepstral coefficient...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制特征的合成语音检测方法，其特征是，通过注意力机制算法为每一条试验语音训练相应的权重矩阵，通过短时能力和过零率之比既能筛选出分帧后的数据否为清浊音；然后再将筛选出的清音数据和原始数据进行打分，从而突出清音部分的数据，削弱浊音部分的数据；再把之后的特征分别训练真实的高斯混合模型和欺诈语音高斯混合模型，并进行打分确认。2.如权利要求1所述的基于注意力机制特征的合成语音检测方法，其特征是，具体步骤如下：步骤一，数据准备：首先将语料库中的数据划分为训练集、验证集、测试集，训练集用来训练模型，验证集用来检测模型训练的好坏，测试集用来验证模型的鲁棒性；步骤二，语音信号处理：对语音信号进行预加重、分帧、加窗处理，并通过傅立叶变换得到语音信号的语谱图信息，语音信号预加重是为了对语音的高频部分进行加重，增强高频部分的分辨率；分帧的目的是为了得到平稳的信号，从而符合傅立叶变换的要求；步骤三，权重矩阵训练：首先通过短时能量和过零率提取出语音信号中是清音的帧，其次使用欧式距离计算语音信号中的每一帧与提取出清音帧的相似度，如果计算原始语音中的清音帧与提取出的清音帧的相似度，其对应的权重矩阵的值会比较大，如果计算原始语音中的浊音帧与提取出得清音帧的相似度，那么其对应的权重矩阵的值会比较小；最后将得到的权重矩阵与原始语音的语谱图代表的矩阵...

【专利技术属性】
技术研发人员：靳嘉宇，魏建国，应翔，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人