基于深度堆栈自编码网络的说话人识别方法技术

技术编号:20366631 阅读:23 留言:0更新日期:2019-02-16 18:14
本发明专利技术涉及一种基于深度堆栈自编码网络的说话人识别方法,S1:说话人特征提取;S2:堆栈自编码器的网络设计;S3:说话人识别与决策。本发明专利技术与传统说话人识别相比,将深度堆栈自编码网络与说话人识别系统模型相融合,结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果,本发明专利技术的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,使识别实时性得到有效增强。

【技术实现步骤摘要】
基于深度堆栈自编码网络的说话人识别方法
本专利技术计算机视觉
,尤其涉及一种基于深度堆栈自编码网络的说话人识别方法。
技术介绍
说话人识别又称声纹识别,是利用语音信号中含有的特定说话人信息来识别说话人身份的一种生物认证技术。近年来,基于因子分析的身份认证矢量(identityvector,i-vector)说话人建模方法的引入使得说话人识别系统的性能有了明显提升。I-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。基于i-vector的说话人识别系统主要包括充分统计量的提取、i-vector映射、似然比得分计算3个步骤。然而,i-vector模型框架中总体变化模型和线性判别分析模型可行性的前提是说话人信息和通道信息线性可分,实际上线性可分难以准确地将两者有效分离,这就限制了模型在复杂实际环境中的性能。近年来,得益于深度学习较强的深层信息抽取和非线性建模能力,深度学习理论在诸多机器学习领域都取得了成功的应用。为了进一步提高文本无关说话人识别的性能和鲁棒性,将深度学习引入到说话人识别的建模框架中,利用深度学习模型具有的深度非线性结构特征,进行了性能评估和分析。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出一种基于深度堆栈自编码网络的说话人识别方法。一种基于深度堆栈自编码网络的说话人识别方法,方法步骤如下:S1:说话人特征提取;S2:堆栈自编码器的网络设计;S3:说话人识别与决策。优选的,所述S1中包括以下步骤:1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换、三角窗滤波、求对数、离散傅里叶变换、差分参数、短时能量,获得MFCC系数;2)给出一组训练按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型;3)将目标说话人和待识别说话人的语音按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量。优选的,所述S2中包括以下步骤:1)将多层稀疏自动编码器组成堆栈式自动编码器;2)加入无监督的预训练和有监督的微调。优选的,所述S3中包括以下步骤:1)在后端测试阶段,当给出一条测试语音的i-vector后,首先将该语音和所有说话人模型进行比对,得到测试概率,即测试得分;2)将最大得分对应的标签与声称的标签对比,若相同,就认为这段语音是其所声称的说话人的语音,否则就拒绝;3)计算所有测试语音正确识别的概率,即系统的识别率。优选的,在S1的第1)步中将语音信号进行分帧时,将N个采样点集合成一个观测单位,N为256或512。优选的,在S1的第1)步中将语音信号进行差分时,采用一阶差分和二阶差分。优选的,在S1的第3)步中通过训练i-vector特征提取器,提取出目标说话人和待识别说话人语音信号的i-vector。优选的,在S3的第1)步中采用Softmax函数进行测试:式中k为输出类别的索引,即目标说话人的类别索引,ps表示待识别说话人在第s类的输出值,即输出概率。与现有技术相比,本专利技术具有的有益效果在于:本专利技术提出一种基于深度堆栈自编码网络的说话人识别方法,具体而言使用堆栈自编码器和i-vector组合的方法。堆栈式自动编码器,先用无监督逐层贪心训练算法完成对隐含层的预训练,然后用BP算法对整个神经网络进行系统性参数优化调整,显著降低了神经网络的性能指数,有效改善了BP算法易陷入局部最小的不良状况。堆栈式自动编码器的多层结构既能提高评价模型的表征能力,又能避免节点数指数增长,进而提高抗噪性、识别率。本专利技术与传统说话人识别相比,将深度堆栈自编码网络与说话人识别系统模型相融合,结合堆栈自编码器的多层结构在提高评价模型的表征能力方面的显著效果,本专利技术的说话人识别方法在存在背景噪声的环境下能够有限提升系统的识别性能,在降低噪声对系统性能影响、提高系统噪声鲁棒性的同时,优化系统结构,使识别实时性得到有效增强。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是基于本网络的i-vecor特征提取的结构图;图2是本专利技术提出的网络的识别过程图;图3是MFCC特征提取流程图;图4是i-vector特征提取流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。下面结合具体实施例对本专利技术作进一步解说。参照图1-4,一种基于深度堆栈自编码网络的说话人识别方法,该方法可以分为三部分:1)说话人特征提取;2)堆栈自编码器的网络设计;3)说话人识别与决策(softmax)。1)说话人特征提取,步骤如下:A、采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、短时能量;(A-1)预加重:为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分y=x(n)-a*x(n-1),0.95<a<0.97(1)式中x(n)表示输入信号;(A-2)分帧:将N个采样点集合成一个观测单位,称为帧,通常情况下N的值为256或512;(A-3)加窗:将每一帧乘以汉明窗,以增加帧左端和右端的连续性,x(n)表示分帧之后的信号:(A-4)快速傅里叶变换(FFT):将时域信号转化到频域进行后续的频率分析;式中s(n)表示输入的语音信号,N表示傅里叶变换的帧数。(A-5)将能量谱通过一组Mel尺度的三角形滤波器组,定义为一个有M个三角滤波器的滤波器组,中心频率为f(m),m=1,2,…,M;各f(m)之间的间隔与m值成正比;(A-6)经离散余弦变换(DCT)得到MFCC系数:将上述的对数能量带入离散余弦变换,式中M为三角滤波器的个数;L是MFCC系数的阶数,取12-16;(A-7)差分:为了使特征更能体现时域连续性,可以在特征维度增加前后帧信息的维度,常用的是一阶差分和二阶差分。B、给出一组训练按步骤A提取出MFCC特征,训练高斯混合-通用背景模型(GMM-UBM);(B-1)若某条语音数据对应的特征为X,其中X={x1,x2,…xT},且假设其维度为D,用于计算其似然函数的公式为:式中该密度函数由K个单高斯密度函数pk(Xt)加权得到,其中每一个高斯分量的均值μk和协方差∑k的大小分别为:1×D和D×D;其中混合权重wk满足假设λ表示模型参数的集合,则有λ={wk,μi,∑k},k=1,2,…,K,该模型通过期望最大化(EM)迭代训练得出;(B-2)一般用EM算法获取参数λ,先给予λ一个初始值,然后估计出新参数λ′,使得在λ′下的似然度更高,即p(X|λ′)≥p(X|λ),新参数再作为当前参数进行训练,不断迭代,各参数的重估计公式为:C、将目标说话人和待识别说话人的语音按步骤A提取出MFCC特征,训练GMM-UBM模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量;(C-1)I-vector引入到说话人识别过程是通过将JFA算法中说话人因子分量和信道因子分量同时映射到一个低本文档来自技高网...

【技术保护点】
1.一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,方法步骤如下:S1:说话人特征提取;S2:堆栈自编码器的网络设计;S3:说话人识别与决策。

【技术特征摘要】
1.一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,方法步骤如下:S1:说话人特征提取;S2:堆栈自编码器的网络设计;S3:说话人识别与决策。2.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,所述S1中包括以下步骤:1)采集原始语音信号并依次预加重、分帧、加窗,快速傅里叶变换、三角窗滤波、求对数、离散傅里叶变换、差分参数、短时能量,获得MFCC系数;2)给出一组训练按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型;3)将目标说话人和待识别说话人的语音按步骤1)提取出MFCC特征,训练高斯混合-通用背景模型来对语音声学特征进行对准,并计算得到特征的高维充分统计量。3.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,所述S2中包括以下步骤:1)将多层稀疏自动编码器组成堆栈式自动编码器;2)加入无监督的预训练和有监督的微调。4.根据权利要求1所述的一种基于深度堆栈自编码网络的说话人识别方法,其特征在于,所述S3中包括以下步骤:1)在后端测试阶段,当给出一条测试语音...

【专利技术属性】
技术研发人员:曾春艳马超峰武明虎叶佳翔朱莉王娟吕松南朱栋梁蔡松
申请(专利权)人:湖北工业大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1