语音识别中的正则化口音自适应方法技术

技术编号:14874064 阅读:163 留言:0更新日期:2017-03-23 21:44
本发明专利技术公开了一种语音识别中的正则化口音自适应方法,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化目标函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。本发明专利技术中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。

【技术实现步骤摘要】

本专利技术涉及电子行业信号处理
,尤其涉及一种语音识别中的正则化口音自适应方法
技术介绍
语音是人与人进行交流的最自然和最高效的媒介,而语音识别是人与机器进行自然交互的重要途径。识别近年来,随着深度学习技术的在语音识别中的深入应用,语音识别取得令人瞩目的成绩。尤其是最近提出的端到端基于联结时序分类进行训练的长短时记忆的声学模型训练方法的兴起,不仅极大的简化了声学模型的步骤和提高了解码的速度,而且提高了语音识别的精度。但是当说话人发音不太标准或者带浓重口音时,语音识别的准确率急剧下降。
技术实现思路
本专利技术针对现有技术存在的上述问题,提出一种语音识别中的正则化口音自适应方法,以提高口音语音的识别准确率。本专利技术的语音识别中的正则化口音自适应方法包括以下步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化所述基线声学模型的损失函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。进一步地,所述特征参数为梅尔频谱特征或梅尔频率倒谱特征。进一步地,先提取所述口音数据的静态参数,然后分别计算所述静态参数的一阶差分和二阶差分,得到所述特征参数。进一步地,所述基线声学模型为长短时记忆神经网络模型。进一步地,所述分类器是前馈神经网络分类器。进一步地,利用前向算法计算所述软化概率分布。进一步地,所述损失函数为联结时序分类损失函数。进一步地,在步骤S104中,将所述基线声学模型的损失函数视为一个正则化项加入到口音依赖的标准损失函数上,对于输入目标语音x,其对应的标签系列为z,正则化的联结时序分类损失函数为:L(S)=-ln∏(x,z)∈Sp(z|x)=-∑(x,z)∈Slnp(z|x)其中,ρ是正则化参数,S是训练样本集,L(S)是口音依赖的声学模型的标准联结时序分类损失函数,是口音依赖的声学模型的正则化联结时序分类损失函数。lnp(z|x)是口音依赖的声学模型中标签z对应的正确对数概率;lnpAI(z|x)是标签z的软化对数概率分布,采用前向算法,从对口音独立的长短时记忆模型基线声学模型中计算得到;为正确对数概率和软化对数概率的线性组合。进一步地,在步骤S105中,仅对所述基线声学模型的最后一层进行自适应,以得到口音依赖的声学模型。进一步地,在步骤S105中,使用后向传播算法进行所述基线声学模型的自适应。本专利技术中,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确率。附图说明图1是本专利技术实施例语音识别中的正则化口音自适应方法的流程示意图;图2是本专利技术实施例语音识别中的正则化口音自适应方法中口音识别的流程示意图;图3是本专利技术实施例语音识别中的正则化口音自适应方法中软化概率生成的流程示意图;图4是本专利技术实施例语音识别中的正则化口音自适应方法中的口音依赖声学模型的生成流程示意图。具体实施方式下面参照附图来描述本专利技术的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本专利技术的技术原理,并非旨在限制本专利技术的保护范围。如图1所示,本专利技术实施例的正则化口音自适应方法主要包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取。可根据不同地域、年龄和性别采集各种方言口音的普通话音频数据,从而形成一个口音数据库,用于训练口音独立的基线声学模型。本实施方式中使用梅尔频谱特征或梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,MFCC),MFCC是基于人耳听觉提出来的,其识别性能较好,广泛应用于语音信号处理的各个领域。在此,可先提取静态参数,然后分别计算它们的一阶差分和二阶差分,最终提取的参数例如是39维的,利用这39维属性进行后续状态的识别。在其它实施方式中,也可使用LPCC(线性预测倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等方法进行特征参数提取。步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型。本实施方式中使用基于长短时记忆神经网络的模型作为所述基线声学模型,损失函数为联结时序分类损失函数。在其它实施方式中,也可使用其它模型来训练所述声学模型,包括隐马尔科夫-高斯混合模型,隐马尔科夫-前馈神经网络模型,隐马尔科夫-长短时记忆神经网络模型,隐马尔科夫-卷积神经网络模型等。具体地,可根据所述提取的声学特征参数,采用联结时序分类损失函数,训练一个口音独立的长短时记忆深度循环神经网络的基线声学模型。该联结时序分类损失函数是标准损失函数。步骤S102,如图2所示,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别。本专利技术中,对口音数据进行分类的分类器可以是任意的分类器。本实施方式中使用前馈神经网络分类器,该分类器是基于深度神经网络构建的,可具有4个类别,含有2个隐藏层,每个隐藏层含有1024个节点,损失函数为交叉熵。步骤S103,计算软化概率分布。如图3所示,根据提取的所述特征参数,利用在步骤S101中构建的口音独立的基线声学模型计算口音数据的软化概率分布。计算软化概率用前向算法,为所述声学模型输出层的每个标签计算出概率值,即软化概率。在此显然的是,步骤S102和步骤S103可以同时进行,也可按不同顺序先后进行。步骤S104,正则化所述基线声学模型的损失函数。具体地,将口音独立的基线声学模型的损失函数视为一个正则化项加入到口音依赖的标准损失函数上,从而防止自适应过程破坏了神经网络声学模型的参数或者让训练过程产生过拟合的现象。本实施方式中,该损失函数是联结时序分类损失函数。对于输入的目标语音x,其对应的标签系列为z,正则化的联结时序分类损失函数则有如下公式:L(S)=-ln∏(x,z)∈Sp(z|x)=-∑(x,z)∈Slnp(z|x)ρ是正则化参数,S是训练样本集,L(S)是口音依赖的声学模型的标准联结时序分类损失函数,是口音依赖的声学模型的正则化联结时序分类损失函数。lnp(z|x)是口音依赖的声学模型中标签z对应的正确对数概率;lnpAI(z|x)是标签z的软化对数概率分布,采用前向算法,从对口音独立的长短时记忆模型基线声学模型中计算得到;是最终新的对数概率,即正确对数概率和软化对数概率的线性组合。步骤S105,利用正则化的所述损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。如图4所示,利用步骤S100中提取的特征参数,利用步骤S102生成的口音类别和步骤S103计算出的软化概率以及口音数据作为输入,利用步骤S104中推导的正则化的损失函数对口音独立的声学模型进行自适应,生成口音依赖的声学模型。本实施方式中在进行自适应的过程中可用后向传播算法进行,最后生成口音依赖的声学模型。后向传播算法尤其适用于神经网络训练。优选地,仅对所述基线声学模型的最后一层进行自适应,从而得到口音依赖的声学模型。仅对声学模型的最后一层进行自适应,相比对声学模型的所有层都进行自适应的方法而言,提高了自适应的速度。本专利技术的方法,通过对声学模型进行正则化自适应,提高了带口音的语音识别的准确本文档来自技高网...
语音识别中的正则化口音自适应方法

【技术保护点】
一种语音识别中的正则化口音自适应方法,其特征在于,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化所述基线声学模型的损失函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。

【技术特征摘要】
1.一种语音识别中的正则化口音自适应方法,其特征在于,所述方法包括下述步骤:步骤S100,对采集到的口音数据进行特征参数提取;步骤S101,利用提取的所述特征参数,训练口音独立的基线声学模型;步骤S102,利用提取的所述特征参数,用分类器对口音数据识别出其口音类别;步骤S103,计算软化概率分布;步骤S104,正则化所述基线声学模型的损失函数;步骤S105,利用正则化的损失函数对所述口音独立的基线声学模型进行自适应,生成口音依赖的声学模型。2.根据权利要求1所述的方法,其特征在于,所述特征参数为梅尔频谱特征或梅尔频率倒谱特征。3.根据权利要求2所述的方法,其特征在于,先提取所述口音数据的静态参数,然后分别计算所述静态参数的一阶差分和二阶差分,得到所述特征参数。4.根据权利要求1所述的方法,其特征在于,所述基线声学模型为长短时记忆神经网络模型。5.根据权利要求1所述的方法,其特征在于,所述分类器是前馈神经网络分类器。6.根据权利要求1所述的方法,其特征在于,利用前向算法计算所述软化概率分布。7.根据权利要求1所述的方法,其特征在于,所述损失函数为联结时序分类损失函数。8.根据权利要求7所述的方法,其特征在于,在步骤S104中,将所述基线声学模型的损失函数视为一个正则化项加入到口音依赖的标准损失函数上,对于输入目标语...

【专利技术属性】
技术研发人员:陶建华易江燕温正棋刘斌
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1