当前位置: 首页 > 专利查询>天津大学专利>正文

基于辅助数据正则化的说话人自适应方法技术

技术编号:27940023 阅读:26 留言:0更新日期:2021-04-02 14:21
本发明专利技术属于语音识别领域的说话人自适应技术,为解决数据的稀疏性问题带来的过拟合,提高目标说话人的识别准确率。本发明专利技术,基于辅助数据正则化的说话人自适应方法,步骤如下:步骤一,说话人无关的语音识别系统的训练;步骤二,辅助数据集的获取;步骤三,准备说话人的数据;步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM‑HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,步骤五,经过充分训练得到目标说话人的声学模型,使用目标说话人的声学模型,构建语音识别系统。本发明专利技术主要应用于语音识别场合。

【技术实现步骤摘要】
基于辅助数据正则化的说话人自适应方法
本专利技术属于语音识别领域的说话人自适应技术,一种使用少量的目标说话人的数据将语音识别的声学模型转为目标说话人的声学模型的自适应方法。
技术介绍
通过大量数据训练得到的语音识别的模型往往在实际使用过程中会比预期的效果要差,究其原因是训练数据和测试数据不匹配,或者说模型没有学习到测试数据某些特征,从而导致效果变差。由于训练数据和测试数据之间的不匹配,说话人无关(SpeakerIndependent)的大词汇量连续语音识别系统与训练较为充分的说话人相关(SpeakerDependent)的系统相比还是有较大的差距。说话人自适应是语音识别中的关键技术,通过说话人自适应技术在说话人无关语音识别模型和说话人相关的语音识别的模型中相互转换,通常情况下,说话人自适应技术利用少量的自适应数据通过变换语音特征或者修正声学模型来提供特定说话人识别准确率。同时说话人自适应技术分为两类,一种通过自适应数据修正语音识别的模型使的系统匹配当前的说话人,另一种则是通过修改特定说话人的语音特征使得修改后的特征可以匹配当前的语音识别模型。在传统的基于高斯混合-隐马尔可夫模型(GaussianMixtureModel-HiddenMarkovModel,GMM-HMM)的语音识别中,说话人自适应技术使得针对特定说话人的识别错误率降低5%到30%。说话人自适应的技术主要有:(1)说话人归一化,为了减小不同说话人之间的差异,语音的特征映射到一个归一化的特征空间。(2)最大后验概率(MaximumAPosterior,MAP),MAP利用贝叶斯理论,假设GMM-HMM的参数服从某个先验分布,由于这个先验分布的存在,在自适应的过程中防止过拟合。(3)基于变换的方法。通过估计说话人无关的特征和说话人相关的特征之前的映射关系,通过这个估计的映射关系在说话人无关的特征和说话人相关的特征之间变换,来减少训练数据和测试数据之间的匹配,经典的方法主要有最大似然线性回归(MaximumLikelihoodLinearRegression,MLLR),以及由MLLR发展而来的受限最大似然回归(ConstrainedMLLR,CMLLR)。随着深度的学习的快速发展,神经网络可以很好对复杂的高度非线性关系进行建模,神经网络在语音识别领域取得很大成功,语音识别系统的识别率再次得到提高,深度神经网络-隐马尔可夫模型(DeepNeuralNetwork-HiddenMarkovModel,DNN-HMM)成为声学模型的主流方法。基于DNN的说话人的自适应技术也再次成为研究的热点。对于基于神经网络的声学模型的说话人自适应技术主要有:(1)线性变换,即通过在神经网络中添加一层用于自适应训练,而固定其他参数。(2)正则化,正则化方法主要包括Kullback-LeiblerRegularization(KL正则化)和L2正则化。(3)说话人感知训练,通过引入说话人的信息,比如说话人标识向量I-vector,使声学模型可以学习到说话人的信息。(4)对抗训练,使用对抗生成网络对特征提取器进行调整,使得特征提取器的提取到的特征分布不会偏离说话人无关的特征提取器提取的特征分布太远。
技术实现思路
为克服现有技术的不足,本专利技术旨在解决数据的稀疏性问题带来的过拟合,提高目标说话人的识别准确率。为此,本专利技术采取的技术方案是,基于辅助数据正则化的说话人自适应方法,步骤如下:步骤一,说话人无关的语音识别系统的训练:使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型,所述语音识别模型的结构为DNN-HMM模型,其中DNN的网络结构为时延神经网络TDNN,同时使用LatticefreeMMI的训练准则进行训练,LatticefreeMMI指得是基于无词格的最大互信息熵;步骤二,辅助数据集的获取,从训练数据中选择,辅助数据集中应该覆盖所有的训练数据的音素,同时使得辅助数据集中包含的说话人数据量尽量多,避免某个说话人的数据过多对训练过程造成影响;步骤三,准备说话人的数据;步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,在训练过程中所起到的作用:步骤五,经过充分训练得到目标说话人的声学模型,使用目标说话人的声学模型,构建语音识别系统。说话人无关的声学模型的训练包括语音特征梅尔频率倒谱系数MFCC(MelFrequencyCepstralCoefficient)特征的提取、单音素训练,单音素训练完成之后进行三音素训练,以及自适应训练,此时利用已有的三音素模型对训练数据进行强制对齐,构建LatticefreeMMI训练准则需要的决策树和Lattice,声学模型使用的时延神经网络,训练的损失函数为其中k表示声学缩放系统,θ表示模型参数,sm表示状态序列,物理意义为:分子表示正确的路径的得分总和,分母表示所有路径对应的得分总和,同时为了避免拟合,加入了交叉熵和L2正则化,即最终训练的损失函数为步骤二具体步骤如下:首先拥有训练数据的文本,同时也拥有一个字典,字典中保存了词或者字到音素的映射关系,通过字典得到将训练数据的文本映射成对应的音素序列,即训练数据语句ID到音素序列的映射,通过训练数据语句ID到音素序列的映射,得到每个音素到语句ID的映射,即那个语句中包含了这个音素,在每个音素对应的语句ID中随机选择一个,这样得到的语句ID的集合此时已经覆盖了所有的音素,根据语句ID的集合再到训练数据中选择对应的数据,得到最终的辅助数据集。步骤四具体步骤如下:首先载入SI声学模型和目标说话人的数据以及辅助数据集,通过HMM-GMM生成自适应训练需要的Lattice,用于LatticefreeMMI准则下的自适应训练,直到模型收敛得到最后的说话人相关的模型。步骤四详细步骤:得到话人无关的声学模型SI之后,准备辅助数据集和目标说话人的自适应数据,同时使用以下的损失函数进行自适应训练:其中J(x,y:θ)时目标说话人的损失,是辅助数据集的损失,α用来控制辅助数据集的权重,N为自适应的数据量,M为辅助数据集数据量,通过训练模型收敛得到的该说话人的相关的声学模型,用于后续的该说话人的语音的识别。本专利技术的特点及有益效果是:为了解决数据的稀疏性问题带来的过拟合问题,本专利技术采用基于辅助数据的数据正则化技术,结合多任务学习的机制来提高目标说话人的识别准确率。附图说明:图1为声学模型的神经网络结构示意图;图2为辅助数据集选择的伪代码描述;图3为说话人自适应的示意图;图4为说话人相关的声学模型的训练示意图。具体实施方式说话人自适应技术面临的一个主要问题是,目标说话人的数据有限同时由于数据量少而导致的数据稀疏性。尽管已经提出了许多基于神经网络的声学模型的自适应技术,但是目前已有本文档来自技高网
...

【技术保护点】
1.一种基于辅助数据正则化的说话人自适应方法,其特征是,步骤如下:/n步骤一,说话人无关的语音识别系统的训练:使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型,所述语音识别模型的结构为DNN-HMM模型,其中DNN的网络结构为时延神经网络TDNN,同时使用Lattice free MMI的训练准则进行训练,Latticefree MMI指得是基于无词格的最大互信息熵;/n步骤二,辅助数据集的获取,从训练数据中选择,辅助数据集中应该覆盖所有的训练数据的音素,同时使得辅助数据集中包含的说话人数据量尽量多,避免某个说话人的数据过多对训练过程造成影响;/n步骤三,准备说话人的数据;/n步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,在训练过程中所起到的作用:/n

【技术特征摘要】
1.一种基于辅助数据正则化的说话人自适应方法,其特征是,步骤如下:
步骤一,说话人无关的语音识别系统的训练:使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型,所述语音识别模型的结构为DNN-HMM模型,其中DNN的网络结构为时延神经网络TDNN,同时使用LatticefreeMMI的训练准则进行训练,LatticefreeMMI指得是基于无词格的最大互信息熵;
步骤二,辅助数据集的获取,从训练数据中选择,辅助数据集中应该覆盖所有的训练数据的音素,同时使得辅助数据集中包含的说话人数据量尽量多,避免某个说话人的数据过多对训练过程造成影响;
步骤三,准备说话人的数据;
步骤四,使用目标说话人的语音数据和选取的辅助数据集,并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练,其中α用来控制辅助数据集的权重,在训练过程中所起到的作用:



步骤五,经过充分训练得到目标说话人的声学模型,使用目标说话人的声学模型,构建语音识别系统。


2.如权利要求1所述的基于辅助数据正则化的说话人自适应方法,其特征是,说话人无关的声学模型的训练包括语音特征梅尔频率倒谱系数MFCC(MelFrequencyCepstralCoefficient)特征的提取、单音素训练,单音素训练完成之后进行三音素训练,以及自适应训练,此时利用已有的三音素模型对训练数据进行强制对齐,构建LatticefreeMMI训练准则需要的决策树和Lattice,声学模型使用的时延神经网络,训练的损失函数为:



其中k表示声学缩放系统,θ表示模型参数,sm表示状态序列...

【专利技术属性】
技术研发人员:罗小杰魏建国李杰
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1