一种基于混合声学模型的语音识别系统及方法技术方案

技术编号:21118014 阅读:33 留言:0更新日期:2019-05-16 09:41
本发明专利技术公开了一种基于混合声学模型的语音识别系统和方法,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。本发明专利技术的系统基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。

【技术实现步骤摘要】
一种基于混合声学模型的语音识别系统及方法
本专利技术属于语音识别领域,具体涉及一种基于混合声学模型的语音识别系统及方法。
技术介绍
语言交流是人类最自然的交流方式之一,人类对于计算机语音的研究涵盖了语音编解码、语音识别、语音合成、说话人识别、激活词、语音增强等。在这些领域当中语音识别是当下最热门的研究。早在计算机专利技术之前,自动语音识别就已经提上了议程,早期的声码器可以认为是语音识别及合成的雏形。经过几十年的研究,语音识别技术已经渗透到我们生活的方方面面,应用范围涵盖了智能家居、智能音箱、车载交互、国家安全等领域。目前,主流的大词汇量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块构成:信号处理及特征提取模块:该模块的主要任务是从输入信号中提取特征,供声学模型处理;同时,它包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。声学模型;目前主流的是采用神经网络-隐马尔科夫链(DNN-HMM)混合结构模型,如图1所示。其中神经网络是目前研究的热点。发音词典;发音词典包含系统所能处理的词汇集,及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型;语言模型对系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器;解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学模型、语言模型及发音词典,寻找能够以最大概率输出该信号的词串。声学模型通常为神经网络模型,神经网络是一种以连接权重和节点来模拟人脑中神经元工作的技术,可以视作一种分类器,结构主要包括输入层,隐含层和输出层,相邻层的节点之间有带权重的全连接,输出层的节点数量由目标类别数量所决定,数据从输入层进入网络,经由一系列的权重计算和非线性激活函数,最终到达输出层,得到该数据被分为每一类的概率值。目前主流的神经网络结构有卷积神经网络、回馈神经网络以及前向神经网络。不同的神经网络有不同的表达能力,文献[1](H.Sak,A.Senior,andF.Beaufays,“Longshort-termmemorybasedrecurrentneuralnetworkarchitecturesforlargevocabularyspeechrecognition,”CoRR,vol.abs/1402.1128,2014)中的长短时记忆网络对长时间序列有很好的建模能力,文献[2](V.Peddinti,D.Povey,andS.Khudanpur,“Atimedelayneuralnetworkarchitectureforefficientmodelingoflongtemporalcontexts,”inProceedingsofINTERSPEECH,2015.)中的卷积神经网络对输入特征的平移变换能更鲁棒建模,前向神经网络在分类任务上能达到计算量和性能的平衡。在文献[3](V.Peddinti,Y.Wang,D.PoveyandS.Khudanpur,"LowlatencyacousticmodelingusingtemporalconvolutionandLSTMs,"inIEEESignalProcessingLetters,vol.PP,no.99,pp.1-1.doi:10.1109/LSP.2017.2723507)中,通过将时间延迟网络和长短时记忆网络进行融合得到了一个和双向网络性能一致的单向网络:时间延迟及长短时记忆网络。虽然文献[3]提到的混合模型取得了较好的识别性能。但是时间延迟网络和长短时记忆网络在语音识别的鲁棒性方面不如卷积神经网络。
技术实现思路
本专利技术的目的在于克服目前语音识别系统中的时间延迟和长短时记忆混合声学模型存在的上述缺陷,基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,通过在时间延迟和长短时混合模型结构前端加入卷积神经网络,可以有效的降低模型识别错误率,提升多个任务集上的语音识别性能。为了实现上述目的,本专利技术提供一种基于混合声学模型的语音识别系统,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。作为上述系统的一种改进,所述卷积神经网络为两层。一种基于混合声学模型的语音识别方法,所述方法包括:步骤1)建立训练集,基于训练集训练所述语音识别系统的混合声学模型;步骤2)提取待识别语音的梅尔频率倒谱系数特征以及说话人特征;步骤3)利用训练好的声学模型的卷积神经网络对待识别语音的梅尔频率倒谱系数特进行卷积处理;步骤4)将卷积神经网络输出作为新的特征,和待识别语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;步骤5)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音。作为上述方法的一种改进,在所述步骤4)之前还包括:对卷积神经网络输出的特征降维到1024维,同时对取待识别语音的梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换,转换到512维。作为上述方法的一种改进,所述步骤1)具体包括:步骤101)建立训练集;所述训练集包括若干条语音、每条语音的梅尔频率倒谱系数特征以及说话人特征;步骤102)利用卷积神经网络对每条语音的梅尔频率倒谱系数特征进行卷积处理;步骤103)将卷积神经网络输出作为新的特征,和对应语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;步骤104)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,最终得到训练好的混合声学模型。作为上述方法的一种改进,在所述步骤103)之前还包括:对卷积神经网络输出的特征降维到1024维,同时对梅尔频率倒谱系数特征和说话人特征拼接之后的特征进行整体维度转换到512维。本专利技术的优势在于:本专利技术的系统中的混合声学模型通过在时间延迟和长短时混合神经网络的前端加入卷积神经网络,基于卷积神经网络对特征的平移变换有更鲁棒的建模能力,能够有效降低模型识别错误率,提升多个任务集上的语音识别性能。附图说明图1是现有技术的时间延迟和长短时记忆混合声学模型的示意图;图2是本专利技术的混合声学模型的示意图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细的说明。一种基于混合声学模型的语音识别系统,所述系统包括:信号处理及特征提取模块,混合声学模型,发音词典,语言模型和解码器;如图2所示,所述混合声学模型包括:卷积神经网络和时间延迟及长短时记忆混合神经网络,其中时间延迟及长短时记忆混合神经网络是基础模本文档来自技高网
...

【技术保护点】
1.一种基于混合声学模型的语音识别系统,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;其特征在于,所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。

【技术特征摘要】
1.一种基于混合声学模型的语音识别系统,所述系统包括:信号处理及特征提取模块、发音词典、语言模型和解码器;其特征在于,所述系统还包括:混合声学模型;所述混合声学模型包括:前端的卷积神经网络和后端的时间延迟及长短时记忆混合神经网络;所述卷积神经网络作为一个特征提取模块放置在时间延迟及长短时记忆混合神经网络之前;所述卷积神经网络提取出来的鲁棒性特征和原有的特征进行拼接,一起作为后端时间延迟及长短时记忆混合神经网络的输入特征。2.根据权利要求1所述的基于混合声学模型的语音识别系统,其特征在于,所述卷积神经网络为两层。3.一种基于权利要求1或2所述的系统实现的基于混合声学模型的语音识别方法,所述方法包括:步骤1)建立训练集,基于训练集训练所述语音识别系统的混合声学模型;步骤2)提取待识别语音的梅尔频率倒谱系数特征以及说话人特征;步骤3)利用训练好的声学模型的卷积神经网络对待识别语音的梅尔频率倒谱系数特进行卷积处理;步骤4)将卷积神经网络输出作为新的特征,和待识别语音的梅尔频率倒谱系数特征以及说话人特征进行拼接,形成混合特征,作为时间延迟及长短时记忆混合神经网络的输入;步骤5)所述时间延迟和长短时记忆混合神经网络对混合特征进行处理,输出语音的特征的后验概率,用于解码,得...

【专利技术属性】
技术研发人员:徐及程高峰潘接林颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1