基于高斯超矢量和深度神经网络的说话人识别方法技术

技术编号:21835899 阅读:40 留言:0更新日期:2019-08-10 19:14
本发明专利技术公开了一种基于高斯超矢量和深度神经网络的说话人识别方法,包括说话人特征提取阶段,深度神经网络设计阶段,说话人识别与决策阶段,本发明专利技术通过深度神经网络与说话人识别系统模型相融合,结合高斯超矢量和深度神经网络的多层结构在提高评价模型的表征能力方面的显著效果,并且本发明专利技术提出的说话人识别方法在背景噪声的环境下能够有效提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,提高了相应说话人识别产品的竞争力。

Speaker Recognition Based on Gauss Supervector and Depth Neural Network

【技术实现步骤摘要】
基于高斯超矢量和深度神经网络的说话人识别方法
本专利技术涉及语音识别
,尤其涉及一种基于高斯超矢量和深度神经网络的说话人识别方法。
技术介绍
说话人识别,是一种基于语音信息实现的特殊生物识别技术。经过几十年的发展,目前无噪声干扰条件下说话人识别技术已经较为成熟。目前主流的方法有GMM-UBM、GMM-SVM和i-vector。然而在实际应用环境下,由于背景噪声和信道噪声的存在,说话人识别算法性能会明显下降。因此,如何提高现有说话人识别系统的噪声鲁棒性成为近年来该领域的研究热点。为解决这一问题,研究人员已在语音信号处理的不同层面做出尝试。相关文献证实,在信号处理领域的相关识别算法能否取得好的效果取决于噪声的类型和信噪比的大小。对于语音来说,特征真实的概率分布依赖于特定的说话人并且是多模态的。然而,在实际应用场景中,信道的不匹配和加性噪声等因素会破坏特征真实的概率分布。相关研究通过将具有噪声鲁棒性的语音特征与倒谱均值方差归一化等技术结合,在一定条件下可以调整特征的概率分布,达到降低噪声对系统性能影响的目的。特征弯折算法(featurewarping)是将训练和测试语音的特征向量的分布映射到统一的概率分布中,经过映射后的特征向量的每一维都服从标准正态分布,在一定程度上补偿了信道不匹配和加性噪声对特征分布造成的影响。但是,对基于不同语音特征的识别算法进行比较可以发现,识别性能是否改善与噪声的类型和信噪比也是紧密相关的。当环境中含有少量噪声时,基于特征域的相关算法考虑到噪声对特征分布特性的影响,通过分布映射等方式调整特征分布可以提高系统的噪声鲁棒性。但是,随着信噪比的减小,噪声影响特征分布特性的同时,也会改变语音中说话人相关的信息,系统性能会急剧下降,通过调整特征分布带来的系统性能上的提升就显得微不足道。近年来,随着机器学习算法性能的提升和计算机存储、计算能力的提高,深度神经网络(DeepNeuralNetwork,DNN)被应用到说话人识别领域中并取得了显著的效果。因为人类语音信号的产生和感知过程就是一个复杂的过程,而且在生物学上是具有明显的多层次或深层次处理结构。所以,对于语音这种复杂信号,采用浅层结构模型对其处理显然有很大的局限性,而采用深层的结构,利用多层的非线性变换提取语音信号中的结构化信息和高层信息,是更为合理的选择。MFCCs(MelFrequencyCepstralCoefficents)是一种在自动语音和说话人识别中广泛使用的特征,其优点在于不依赖于信号的性质,对输入信号不做任何的假设和限制。数据集中采集到的语音数据的时间长度是不一致,这就导致每段语音的MFCC特征大小也是不一样的。通常神经网络的输入要保证大小一致,如果将MFCC特征通过截取或者补零操作可以满足这一要求,但是这种操作会破坏数据之间的关联性,降低了特征的表达能力,导致系统识别率大大下降。因此本专利技术利用MAP技术对MFCC特征进一步处理,提取出高斯超矢量,提取结果将作为新的鲁棒性特征,并结合深度神经网络,从而提出一种鲁棒性强的说话人识别系统。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于高斯超矢量和深度神经网络的说话人识别方法,为提高评价模型的表征能力,并且在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,提高了相应说话人识别产品的竞争力。根据本专利技术实施例的一种基于高斯超矢量和深度神经网络的说话人识别方法,包括:S1:说话人特征提取;1-1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN);1-11)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分y=x(n)-a*x(n-1),0.95<a<0.97(1)式中x(n)表示输入信号;1-12)分帧:将N个采样点集合成一个观测单位,称为帧;1-13)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号1-14)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数;1-15)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;1-16)经离散余弦变换(DCT)得到MFCC系数:将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;1-17)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分;1-18)倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性;1-2)给出一组训练按步骤1-1)提取出MFCC特征,训练通用背景模型(UniversalBackgroundModel,UBM);1-21)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;1-22)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1),提取出MFCC特征,然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximumaposteriori,MAP)操作,提取出高斯超矢量;1-31)传统的GMM-UBM模型在此阶段,首先对S个人的特征向量分别训练得到特定说话人GMM,记为λ1,λ2,…,λs,在识别阶段,将目标说话人的特征序列X={xt,t=1,2,…T}和GMM模型分别进行匹配,根据MAP计算概率P(λi|X),概率最大所对应的模型即为识别结果;其中,P(X)是常数,如果前提为每个人概率相等则式(8)可以化简为:若假设每帧语音特征之间相互独立,并对其化简最终得到式(10):1-32)本专利技术在此阶段是将每一个特征向量作为一个类别,实际上是对MFCC特征重新进行提取操作;S2:深度神经网络设计;2-1)DNN是传统前馈人工神经网络(Artificalneuralnetwork,ANN)的扩展,具有更多的隐藏层数和更强的表达能力,使用浅层网络中常用的参数随机初始化和反向传播(Back-Propagation,BP)算法来训练这种多层结构很容易使模型陷入局部最优解,DNN的成功得益于近年来提出的一种无监督的生成式预训练算法,该算法使模型获得了更好的初始参数,然后在此基础上,使用有监督训练的方式对模型参数进一步调优;2-11)基于受限玻尔兹曼机的参数预训练;预训练(Pre-本文档来自技高网
...

【技术保护点】
1.一种基于高斯超矢量和深度神经网络的说话人识别方法,应用于说话人识别,其特征在于,所述基于高斯超矢量和深度神经网络的说话人识别方法包括:S1:说话人特征提取;1‑1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN);1‑11)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分y=x(n)‑a*x(n‑1),0.95<a<0.97       (1)式中x(n)表示输入信号;1‑12)分帧:将N个采样点集合成一个观测单位,称为帧;1‑13)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号

【技术特征摘要】
1.一种基于高斯超矢量和深度神经网络的说话人识别方法,应用于说话人识别,其特征在于,所述基于高斯超矢量和深度神经网络的说话人识别方法包括:S1:说话人特征提取;1-1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN);1-11)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分y=x(n)-a*x(n-1),0.95<a<0.97(1)式中x(n)表示输入信号;1-12)分帧:将N个采样点集合成一个观测单位,称为帧;1-13)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号1-14)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数;1-15)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;1-16)经离散余弦变换(DCT)得到MFCC系数:将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数;1-17)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分;1-18)倒谱均值和方差归一化可以消除平稳信道影响,提升特征的鲁棒性;1-2)给出一组训练按步骤1-1)提取出MFCC特征,训练通用背景模型(UniversalBackgroundModel,UBM);1-21)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;1-22)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:1-3)首先对目标说话人和待识别说话人的语音应用步骤1-1),提取出MFCC特征,然后应用步骤1-2)中UBM模型对每个特征向量进行最大后验概率(Maximumaposteriori,MAP)操作,提取出高斯超矢量;1-31)传统的GMM-UBM模型在此阶段,首先对S个人的特征向量分别训练得到特定说话人GMM,记为λ1,λ2,…,λs,在识别...

【专利技术属性】
技术研发人员:曾春艳马超峰武明虎朱栋梁赵楠朱莉王娟
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1