基于辅助数据正则化的说话人自适应方法技术

技术编号：27940023 阅读：26 留言：0更新日期：2021-04-02 14:21

本发明专利技术属于语音识别领域的说话人自适应技术，为解决数据的稀疏性问题带来的过拟合，提高目标说话人的识别准确率。本发明专利技术，基于辅助数据正则化的说话人自适应方法，步骤如下：步骤一，说话人无关的语音识别系统的训练；步骤二，辅助数据集的获取；步骤三，准备说话人的数据；步骤四，使用目标说话人的语音数据和选取的辅助数据集，并通过GMM‑HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练，其中α用来控制辅助数据集的权重，步骤五，经过充分训练得到目标说话人的声学模型，使用目标说话人的声学模型，构建语音识别系统。本发明专利技术主要应用于语音识别场合。

全部详细技术资料下载

【技术实现步骤摘要】
基于辅助数据正则化的说话人自适应方法
本专利技术属于语音识别领域的说话人自适应技术，一种使用少量的目标说话人的数据将语音识别的声学模型转为目标说话人的声学模型的自适应方法。
技术介绍
通过大量数据训练得到的语音识别的模型往往在实际使用过程中会比预期的效果要差，究其原因是训练数据和测试数据不匹配，或者说模型没有学习到测试数据某些特征，从而导致效果变差。由于训练数据和测试数据之间的不匹配，说话人无关(SpeakerIndependent)的大词汇量连续语音识别系统与训练较为充分的说话人相关(SpeakerDependent)的系统相比还是有较大的差距。说话人自适应是语音识别中的关键技术，通过说话人自适应技术在说话人无关语音识别模型和说话人相关的语音识别的模型中相互转换，通常情况下，说话人自适应技术利用少量的自适应数据通过变换语音特征或者修正声学模型来提供特定说话人识别准确率。同时说话人自适应技术分为两类，一种通过自适应数据修正语音识别的模型使的系统匹配当前的说话人，另一种则是通过修改特定说话人的语音特征使得修改后的特征可以匹配当前的语音识别模型。在传统的基于高斯混合-隐马尔可夫模型(GaussianMixtureModel-HiddenMarkovModel,GMM-HMM)的语音识别中，说话人自适应技术使得针对特定说话人的识别错误率降低5％到30％。说话人自适应的技术主要有：(1)说话人归一化，为了减小不同说话人之间的差异，语音的特征映射到一个归一化的特征空间。(2)最大后验概率(MaximumAPos...

【技术保护点】
1.一种基于辅助数据正则化的说话人自适应方法，其特征是，步骤如下：/n步骤一，说话人无关的语音识别系统的训练：使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型，所述语音识别模型的结构为DNN-HMM模型，其中DNN的网络结构为时延神经网络TDNN，同时使用Lattice free MMI的训练准则进行训练，Latticefree MMI指得是基于无词格的最大互信息熵；/n步骤二，辅助数据集的获取，从训练数据中选择，辅助数据集中应该覆盖所有的训练数据的音素，同时使得辅助数据集中包含的说话人数据量尽量多，避免某个说话人的数据过多对训练过程造成影响；/n步骤三，准备说话人的数据；/n步骤四，使用目标说话人的语音数据和选取的辅助数据集，并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练，其中α用来控制辅助数据集的权重，在训练过程中所起到的作用：/n

【技术特征摘要】
1.一种基于辅助数据正则化的说话人自适应方法，其特征是，步骤如下：
步骤一，说话人无关的语音识别系统的训练：使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型，所述语音识别模型的结构为DNN-HMM模型，其中DNN的网络结构为时延神经网络TDNN，同时使用LatticefreeMMI的训练准则进行训练，LatticefreeMMI指得是基于无词格的最大互信息熵；
步骤二，辅助数据集的获取，从训练数据中选择，辅助数据集中应该覆盖所有的训练数据的音素，同时使得辅助数据集中包含的说话人数据量尽量多，避免某个说话人的数据过多对训练过程造成影响；
步骤三，准备说话人的数据；
步骤四，使用目标说话人的语音数据和选取的辅助数据集，并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练，其中α用来控制辅助数据集的权重，在训练过程中所起到的作用：

步骤五，经过充分训练得到目标说话人的声学模型，使用目标说话人的声学模型，构建语音识别系统。

2.如权利要求1所述的基于辅助数据正则化的说话人自适应方法，其特征是，说话人无关的声学模型的训练包括语音特征梅尔频率倒谱系数MFCC(MelFrequencyCepstralCoefficient)特征的提取、单音素训练，单音素训练完成之后进行三音素训练，以及自适应训练，此时利用已有的三音素模型对训练数据进行强制对齐，构建LatticefreeMMI训练准则需要的决策树和Lattice，声学模型使用的时延神经网络，训练的损失函数为：

其中k表示声学缩放系统，θ表示模型参数，sm表示状态序列...

【专利技术属性】
技术研发人员：罗小杰，魏建国，李杰，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人