一种基于后验知识监督的噪声鲁棒声学建模方法技术

技术编号:19748227 阅读:33 留言:0更新日期:2018-12-12 05:15
本发明专利技术公开了一种基于后验知识监督的噪声鲁棒声学建模方法,属于语音人机交互技术领域,该方法包括:通过老师模型的训练得出干净语音的后验概率分布;以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。本发明专利技术示例的建模方法,建立的声学模型具有较强的环境鲁棒性,表现出优越的抗噪性能。

【技术实现步骤摘要】
一种基于后验知识监督的噪声鲁棒声学建模方法
本专利技术属于语音人机交互
,具体的说是一种基于后验知识监督的噪声鲁棒声学建模方法。
技术介绍
近年来,随着语音识别、自然语言处理、深度学习等技术的发展和市场需求的不断深化,语音交互产品的研发与应用逐渐成为一个新的热点;另一方面,由于实际应用场景的复杂性,语音交互系统的运行通常处在一个低信噪比的环境下,由于对噪声的抗干扰能力不足,系统交互过程中经常会出现语音识别准确率低或人机交互混乱等情况,导致服务对象的交互体验感不佳,很大程度上限制了语音交互产品的市场应用及推广。相关研究表明,语音声学模型能否从带噪语音中提取出完整音素信息是决定语音交互系统噪声鲁棒性的关键,声学模型在噪声鲁棒性上的不足主要是模型构建阶段环境噪声导致训练数据与测试数据不匹配而造成的,即提高噪声鲁棒性的目的是要最大限度的降低或消除此类因素的影响。迄今为止,语音识别领域的诸多学者对声学模型噪声鲁棒性开展了广泛研究并提出了多种改进策略,其中应用效果较好的有特征补偿、模型补偿、鲁棒性特征提取和语音增强四种方法。特征与模型补偿是通过自适应算法对声学模型进行优化处理的噪声鲁棒性方法。例如Leggetter等利用最大似然回归(MLLR)算法进行模型自适应;Tran等通过线性分解网络对基于深度神经网络(DNN)的声学模型训练的输入数据进行自适应处理,使声学模型能够较好的匹配带噪语音的数据结构,模型鲁棒性得到提升。鲁棒性特征提取是指从语料中提炼出对于噪声不敏感的特征参数,构建抗噪能力强的特征序列,从而提高声学模型的噪声鲁棒性。倒谱均值归一化法(CMN)和均值方差归一化方法(MVN)是最常见的两种鲁棒性特征提取方法,另外也有学者将感知线性预测系数(PLP)特征与相对谱(RASTA)滤波结合,加强声学模型对加性噪声和线性滤波的鲁棒性;另外刘长征等以MFCC特征作为CNN网络的输入,采取有监督学习的方式,提取出更高层的语音特征,实验表明这些特征在噪声环境下具有较好的时序不变性。语音增强现今最常用的方式是通过噪声更新与噪声消除相结合的谱减法对语音和噪声独立处理,在假设噪声信息已知的情况下估计出语料的噪声谱,从带噪语音谱中减去预估的噪声谱得到语料的干净谱,从而提取出噪声语音中的干净特征用于声学模型的训练;此外Xu等提出了谱减法与DNN网络相结合的方式,将谱减法处理后的特征与噪声估计参数作为基础样本输入到DNN网络中,通过噪声依赖训练得到的深度声学模型与谱减法相比抗噪性能更好。上述四种方法虽然可以有效的提升声学模型的环境鲁棒性,但是在理论与应用上存在两个问题:一是上述方法只是通过干净语音对带噪语音的降噪进行监督或者通过带噪语音对干净语音进行拟合,降低二者之间的差异性,并未充分挖掘干净语音的隐含知识,对信息的提炼不够充分;另一方面,上述四类方法中声学特征提取模块与后续的训练识别过程是相互独立的,没有考虑建模与特征提取单元之间的内在联系,使得模型训练的目标函数与系统整体的性能指标有偏差,并且提取出的语音特征中包含部分冗余信息,这些冗余信息通常不具备噪声鲁棒性,导致使得整个声学网络往往达不到最优性能。因此,如何提高语音交互系统的噪声鲁棒性是现阶段急需解决的问题。
技术实现思路
针对上述现有技术中存在的问题,本专利技术的目的在于提供一种基于后验知识监督的噪声鲁棒声学建模方法,该方法可提升声学模型的噪声鲁棒性。本专利技术所采用的技术方案为:提供了一种基于后验知识监督的噪声鲁棒声学建模方法,包括:通过老师模型的训练得出干净语音的后验概率分布;以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。进一步的,所述老师模型的训练,包括:对干净语音进行特征Xt提取;对分窗后的特征Xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注;所述分窗即分帧和加窗,一般是根据预设的参数对语音数据进行分帧,并加窗便于后续特征对齐。在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注;将所述起止点标注信息与硬标注数据作为监督信息送入DNN模块进行声学模型的建模训练。进一步的,所述对分窗后的特征进行逐帧强制对齐,通过GMM-HMM模块进行。进一步的,所述声学模型的建模训练,包括:将特征Xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三因素后验概率分布。进一步的,所述学生模型的训练,包括:对带噪语音进行初步特征Xs提取;提取出的音素特征Xs与老师模型的软标注进行平行对齐,从而得到学生模型的软标注;在初步提取的声学特征基础上提取高层特征,并进行高层特征的降维,提炼出能够对噪声语音不变性进行表征的特征序列;将高层特征输入DNN模块进行声学模型的建模训练。进一步的,所述提取高层特征借助CNN网络局部连接与降采样模块进行提取。进一步的,所述神经网络模块的训练过程以相对熵最小化作为优化准则。进一步的,所述老师模型和学生模型的后验概率分布差异性,通过相对熵进行量化。进一步的,所述老师模型和学生模型的相对熵为:其中:Pt为老师模型的后验概率分布,Qs为学生模型的后验概率分布,i表示三音素状态集合中的次序,phi为三音素状态集合中的第i个状态,Xt表示用于训练老师模型的干净语音特征,Xs表示用于训练学生模型的带噪语音特征,Pt(phi︱Xt)表示特征Xt被识别为第i个三音素状态的后验概率,Qs(phi︱Xs)表示特征Xs被识别为第i个三音素状态的后验概率。进一步的,所述老师模型和学生模型的后验概率分布相对熵为:与现有技术相比,本专利技术的有益效果为:1、本专利技术示例的基于后验知识监督的噪声鲁棒声学建模方法,以干净语音训练的模型作为老师模型,带噪语音训练的模型作为学生模型,提炼老师模型的后验概率分布知识用于监督学生模型的训练,间接性的达到提高声学模型环境鲁棒性的要求。2、本专利技术示例的基于后验知识监督的噪声鲁棒声学建模方法,采用CNN(卷积神经网络)与DNN(深度神经网络)相结合的声学模型训练网络结构,其中CNN模块用于提取带噪语音的不变性特征,DNN用于声学建模,整个网络参数的训练通过CNN与DNN模块联动调整与优化,构建的模型在CHIME数据集上进行了不同信噪比下的语音识别性能验证与对比,测试结果表明该模型具有较强的环境鲁棒性,表现出优越的抗噪性能。3、本专利技术示例的基于后验知识监督的噪声鲁棒声学建模方法,采用的CNN-DNN学生模型与DNN模型相比,增加了卷积神经网络模块进行语音高层特征的提取,能够更好的捕捉带噪语音的时序不变性;另外CNN卷积神经网络内部的降采样(Pooling)层对语音特征冗余信息具有剔除作用,实现了语音特征降维,在提高声学模型噪声鲁棒性的同时也促进了模型训练的效率提升。4、本专利技术示例的基于后验知识监督的噪声鲁棒声学建模方法,相比传统的标准交叉熵(CE)最小化准则,以概率向量(软标注)替换了0-1向量(硬标注),软标注是对后验概率分布的深层提炼,包含的有用信息更丰富,更利于鲁棒性声学模型的建模。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本文档来自技高网
...

【技术保护点】
1.一种基于后验知识监督的噪声鲁棒声学建模方法,其特征是,包括:通过老师模型的训练得出干净语音的后验概率分布;以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。

【技术特征摘要】
1.一种基于后验知识监督的噪声鲁棒声学建模方法,其特征是,包括:通过老师模型的训练得出干净语音的后验概率分布;以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。2.根据权利要求1所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型的训练,包括:对干净语音进行特征Xt提取;对分窗后的特征Xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注;在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注;将所述起止点标注信息与硬标注数据作为监督信息送入DNN模块进行声学模型的建模训练。3.根据权利要求2所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述对分窗后的特征进行逐帧强制对齐,通过GMM-HMM模块进行。4.根据权利要求2所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述声学模型的建模训练,包括:将特征Xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三因素后验概率分布。5.根据权利要求1所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述学生模型的训练,包括:对带噪语音进行初步特征Xs提取;提取出的音素特征Xs与老师模型的软标注进行平行对齐,从而得...

【专利技术属性】
技术研发人员:潘子春李葵李明张引强黄影赵峰吴立刚徐海青章爱武陈是同徐唯耀秦浩王文清郑娟秦婷梁翀浦正国张天奇余江斌韩涛杨维张才俊
申请(专利权)人:国网安徽省电力有限公司信息通信分公司国网信息通信产业集团有限公司安徽继远软件有限公司国家电网有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1