一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法技术

技术编号:19241096 阅读:78 留言:0更新日期:2018-10-24 04:21
本发明专利技术公开了一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,步骤如下:首先从语音样本中提取Filterbank特征和梅尔频率倒谱系数特征,分别作为两个特征流;将这两个特征流分别输入两个带瓶颈层的深度置信网络进行特征变换,得到两个瓶颈特征流;然后将这两个瓶颈特征流拼接起来并输入第三个带瓶颈层的深度置信网络进行特征变换,从而得到融合变换后的特征;最后,采用长短时记忆网络作为分类器判断语音样本属于哪一个说话人。本发明专利技术采用多个深度置信网络对输入声学特征进行融合变换,相比于单个声学特征及单个神经网络变换后的特征能更有效刻画不同说话人的特性差异,在说话人辨识中可以获得更加优异的效果。

【技术实现步骤摘要】
一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法
本专利技术涉及语音处理和深度学习
,具体涉及一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法。
技术介绍
模式识别是当今研究的一个热点,说话人辨识是其子领域之一,说话人辨识是指通过一段语音从已有的说话人集合中分辨出说话人身份。目前,梅尔频率倒谱系数(MelFrequencyCepstralCoefficient,MFCC)特征、Filterbank特征、I-Vector特征是最为普遍采用的刻画说话人特性差异的音频特征,而且取得了较好的说话人辨识效果。上述特征都属于浅层特征,不能深入表征各说话人的特性差异,具有一定的局限性。近年来,随着深度学习技术的发展,基于深度神经网络的瓶颈特征也被用在说话人识别领域。尽管瓶颈特征在一定程度上刻画了说话人深层特性差异,但只是对单个声学特征进行变换,并没有融合多个声学特征。因此,瓶颈特征并没有从多个侧面描述说话人的特性差异。另外,在说话人建模方面,高斯混合模型(GaussianMixtureModel,GMM)是目前使用最为广泛的一种统计模型,能够较好地描述样本空间的分布,但是随着辨识说话人的增多,语音特征参数之间重叠比较严重,不能取得较好的辨识结果。由此可见,现有技术的缺点和不足,有如下两点:1.MFCC等浅层特征不能有效刻画说话人的深层特性差异,瓶颈特征不能从多个侧面表征说话人深层特性差异。2.目前的说话人建模方法,例如GMM,随着说话人个数的增加方法辨识结果逐渐变差,不能取得较好的结果。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法。本专利技术采用深度神经网络进行声学特征的融合与变换,然后基于长短时记忆网络进行说话人辨识。该方法基于深度学习技术提取特征和分类说话人,具有准确率高、鲁棒性强等优势。本专利技术的目的可以通过采取如下技术方案达到:一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,所述的说话人辨识方法包括下列步骤:S1、声学特征提取:从语音样本提取Filterbank特征和MFCC特征;S2、构建深度置信网络特征提取器,构建三个带瓶颈层的深度置信网络提取融合变换特征;S3、融合变换特征提取:上述三个深度置信网络的前两个网络分别对Filterbank特征和MFCC特征进行变换得到两个瓶颈特征,第三个网络对上述两个瓶颈特征进行变换得到融合变换特征;S4、说话人辨识:将上述融合变换特征输入长短时记忆网络,判断输入语音样本是哪个具体说话人的语音。进一步地,所述的步骤S1包括:S1.1、预加重:以f(z)=1-αz-1为传递函数对输入的语音进行滤波,其中α的取值范围是[0.9,1];S1.2、分帧:预加重后,将语音切分成特定长度的语音帧,记帧长为L,帧移为S,第r帧语音表示为xr(n),其中1≤r≤R,0≤n≤N-1,R和N分别代表帧数和每帧语音的采样点数;S1.3、加窗:将各帧语音与窗函数w(n)相乘,窗函数取汉明窗,记为:S1.4、提取Filterbank特征和MFCC特征。进一步地,所述的步骤S1.4包括:S1.4.1、对每帧语音做离散傅立叶变换,记第r帧语音的线性频谱为Sr(k):S1.4.2、得到线性频谱Sr(k)后,通过梅尔滤波器组滤波得到梅尔频谱,再进行对数运算得到Filterbank特征Fbr(m),其中梅尔滤波器组为若干个带通滤波器,记为Hm(k),0≤m≤M,其中M为滤波器的个数,每个滤波器具有三角形滤波特性,中心频率为f(m),相邻f(m)的间隔随着m的增大逐渐变大,每个带通滤波器的传递函数为:其中,f(m)定义如下:上式中,fl和fh分别表示滤波器频率范围的最低频率和最高频率,N表示每帧语音的采样点数,fs表示采样频率,B-1为B的逆函数,记为:B-1(b)=700(eb/1125-1),因此,由线性谱Sr(k)到Filterbank特征的函数表达式为:S1.4.4、对上述Filterbank特征进行离散余弦变换,得到每帧语音的MFCC特征,其中第r帧语音的MFCC特征表达式为:S1.4.5、对每帧语音信号重复步骤S1.4.1-S1.4.4,得到所有语音帧的Filterbank特征和MFCC特征。进一步地,所述的步骤S2包括:S2.1、预训练:将受限玻尔兹曼机逐层堆叠构造深度置信网络,并且获取预训练所需参数;S2.2、精确调整:采用有监督训练方法对预训练后的深度神经网络进行精确调整;S2.3、按照步骤S2.1-S2.2的方法依次训练三个深度置信网络,用于提取融合变换特征。进一步地,所述的步骤S2.1、预训练过程如下:S2.1.1、选取当前帧的前后5帧作为上下文信息,共计11*13=143维作为第一个受限玻尔兹曼机的可视层输入节点数,隐含层节点数取固定值1024,将输入特征的每一维进行倒谱均值方差归一化操作,然后采取对比散度算法训练一个高斯-伯努利受限玻尔兹曼机,参数初始化为0,最大迭代次数设置为30;S2.1.2、保存上一个受限玻尔兹曼机的权重和偏移量参数,将其隐含层作为下一个受限玻尔兹曼机的可视层,并且保持相同的隐含层节点数与可视层节点数,迭代训练一个伯努利-伯努利受限玻尔兹曼机,此过程中,权重学习率变为0.04,迭代次数降为15次;S2.1.3、按照步骤S2.1.2,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到瓶颈层的前一个隐含层,将受限玻尔兹曼机的隐含层节点数设置为输入特征的维数,按照步骤S2.1.1,迭代训练伯努利-伯努利受限玻尔兹曼机,恢复隐含层节点数为1024,重复迭代训练伯努利-伯努利受限玻尔兹曼机,直到最后一个隐含层,将所有的受限玻尔兹曼机按照构造时的顺序依次堆叠起来,即可构成一个带瓶颈层的深度置信网络。进一步地,所述的步骤S2.2、精确调整过程如下:S2.2.1、在深度置信网络的基础上再添加一个输出层,并随机初始化该层的网络参数,从而构成一个完整的深度置信网络;S2.2.2、利用反向传播算法调整深度置信网络的参数,最大迭代次数设为100,并且当相邻两次迭代的损失变化率小于0.01时终止训练。进一步地,所述的步骤S3包括:S3.1、将Filterbank特征和MFCC特征分别输入深度置信网络A和深度置信网络B,从网络瓶颈层分别得到瓶颈特征A和瓶颈特征B;S3.2、将上述瓶颈特征A和瓶颈特征B拼接成一个特征矢量输入深度置信网络C,从该网络的瓶颈层提取得到融合变换特征。进一步地,所述的步骤S4包括:S4.1、构建长短时记忆网络,过程如下:S4.1.1、更新循环神经网络:对于循环神经网络,语音数据序列的信息分为两个方向输入,分别保存两个方向输入数据的信息,并将相应的输出连接到相同的输出层,每个节点表示在每个时刻循环神经网络的一层,第t时刻隐含层的输出为:h(t)=g(Uh(t-1)+Wx(t)+b),其中,U表示循环神经网络输入层到隐含层的权值矩阵,W表示隐含层到输出层的权值矩阵,x(t)为第t时刻的输入,b为偏差,模型的迭代过程从t=1时刻开始,随着t的增长,使用上式进行计算,其中,g为tanh激活函数:S4.1.2、迭代更新长短时记忆网络记忆单元,训练得到长短时本文档来自技高网...

【技术保护点】
1.一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,其特征在于,所述的说话人辨识方法包括下列步骤:S1、声学特征提取:从语音样本提取Filterbank特征和MFCC特征;S2、构建深度置信网络特征提取器,构建三个带瓶颈层的深度置信网络提取融合变换特征;S3、融合变换特征提取:上述三个深度置信网络的前两个网络分别对Filterbank特征和MFCC特征进行变换得到两个瓶颈特征,第三个网络对上述两个瓶颈特征进行变换得到融合变换特征;S4、说话人辨识:将上述融合变换特征输入长短时记忆网络,判断输入语音样本是哪个具体说话人的语音。

【技术特征摘要】
1.一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,其特征在于,所述的说话人辨识方法包括下列步骤:S1、声学特征提取:从语音样本提取Filterbank特征和MFCC特征;S2、构建深度置信网络特征提取器,构建三个带瓶颈层的深度置信网络提取融合变换特征;S3、融合变换特征提取:上述三个深度置信网络的前两个网络分别对Filterbank特征和MFCC特征进行变换得到两个瓶颈特征,第三个网络对上述两个瓶颈特征进行变换得到融合变换特征;S4、说话人辨识:将上述融合变换特征输入长短时记忆网络,判断输入语音样本是哪个具体说话人的语音。2.根据权利要求1所述的一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,其特征在于,所述的步骤S1包括:S1.1、预加重:以f(z)=1-αz-1为传递函数对输入的语音进行滤波,其中α的取值范围是[0.9,1];S1.2、分帧:预加重后,将语音切分成特定长度的语音帧,记帧长为L,帧移为S,第r帧语音表示为xr(n),其中1≤r≤R,0≤n≤N-1,R和N分别代表帧数和每帧语音的采样点数;S1.3、加窗:将各帧语音与窗函数w(n)相乘,窗函数取汉明窗,记为:S1.4、提取Filterbank特征和MFCC特征。3.根据权利要求2所述的一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,其特征在于,所述的步骤S1.4包括:S1.4.1、对每帧语音做离散傅立叶变换,记第r帧语音的线性频谱为Sr(k):S1.4.2、得到线性频谱Sr(k)后,通过梅尔滤波器组滤波得到梅尔频谱,再进行对数运算得到Filterbank特征Fbr(m),其中梅尔滤波器组为若干个带通滤波器,记为Hm(k),0≤m≤M,其中M为滤波器的个数,每个滤波器具有三角形滤波特性,中心频率为f(m),相邻f(m)的间隔随着m的增大逐渐变大,每个带通滤波器的传递函数为:其中,f(m)定义如下:上式中,fl和fh分别表示滤波器频率范围的最低频率和最高频率,N表示每帧语音的采样点数,fs表示采样频率,B-1为B的逆函数,记为:B-1(b)=700(eb/1125-1),因此,由线性谱Sr(k)到Filterbank特征的函数表达式为:S1.4.4、对上述Filterbank特征进行离散余弦变换,得到每帧语音的MFCC特征,其中第r帧语音的MFCC特征表达式为:S1.4.5、对每帧语音信号重复步骤S1.4.1-S1.4.4,得到所有语音帧的Filterbank特征和MFCC特征。4.根据权利要求1所述的一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,其特征在于,所述的步骤S2包括:S2.1、预训练:将受限玻尔兹曼机逐层堆叠构造深度置信网络,并且获取预训练所需参数;S2.2、精确调整:采用有监督训练方法对预训练后的深度神经网络进行精确调整;S2.3、按照步骤S2.1-S2.2的方法依次训练三个深度置信网络,用于提取融合变换特征。5.根据权利要求4所述的一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法,其特征在于,所述的步骤S2.1、预训练过程如下:S2.1.1、选取当前帧的前后5帧作为上下文信息,共计11*13=143维作为第一个受限玻尔兹曼机的可视层输入节点数,隐含层节点数取固定值1024,将输入特征的每一维进行倒谱均值方差归一化操作,然后采取对比散度算法训练一个高斯-伯努利受限玻尔兹曼机,参数初始化为0,最大迭代次数设置为30;S2.1.2、保存上一个受限玻尔兹曼机的权重和偏移量参数,将其隐含层作为下一个受限玻尔兹曼机的可视层,并且保持相同的隐含层节点数与可视层节点数,迭代训练一个伯努利-伯努利受限玻尔兹曼机,此过程中,权重学习率变为0.04,迭代次数降为15次;S2.1.3、按...

【专利技术属性】
技术研发人员:李鹏乾李艳雄
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1