一种用于语音识别的新型时延递归神经网络制造技术

技术编号:20392557 阅读:43 留言:0更新日期:2019-02-20 03:56
本发明专利技术公开了一种用于语音识别的新型时延递归神经网络,包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,线性判别分析层与时延神经网络层最下层连接,深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,时延递归神经网络层分别与上下两层时延神经网络层连接,深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接;本发明专利技术的一种用于语音识别的新型时延递归神经网络可在保持网络结构简单的同时,达到和长短时记忆单元相似的效果,从而提高训练效率、减少运算消耗、减少模型体积。

【技术实现步骤摘要】
一种用于语音识别的新型时延递归神经网络
本专利技术涉及语音识别的声学模型建模领域,具体涉及一种用于语音识别的新型时延递归神经网络。
技术介绍
随着智能语音技术的日渐发展,如Siri、Alexa和Cortana这样的智能助手正走进千家万户,极大的方便了大家的日常生活。语音识别是智能语音技术的关键环节,通过语音识别技术,可以将语音数据转换为文本数据,以便后续处理。一般来说,语音识别系统由声学模型和语言模型组成。在现今,基于神经网络构建的声学模型相对于早期的基于混合高斯模型的声学模型,效果提升显著,并且被广泛的应用在各种知名的语音识别系统中。在语音识别中,如何有效地组织、提取和处理声音特征帧的上下文信息,是一个研究焦点。目前为止,声学建模效果较好的神经网络有基于降采样技术的时延神经网络和基于递归神经网络的长短时记忆单元。采用了降采样技术的时延神经网络由于没有递归结构,具有训练收敛速度快、模型参数量少的特点;而长短时记忆单元由于具有长时记忆功能,因此建模效果更好,但是训练过程繁琐、费时,网络结构复杂、体积大。在实践中,两种网络往往混搭使用,相辅相成。
技术实现思路
有鉴于此,为解决上述现有技术中的问题,本专利技术提供了一种用于语音识别的新型时延递归神经网络,具有提高训练效率、减少模型体积的优点。为实现上述目的,本专利技术的技术方案如下。一种用于语音识别的新型时延递归神经网络,包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,所述线性判别分析层与时延神经网络层最下层连接,所述深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,所述时延递归神经网络层分别与上下两层时延神经网络层连接,所述深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接,所述深度神经网络层用于增加递归路径的深度,加强递归信息的表达能力。进一步地,所述时延递归神经网络结构包括时延神经网络结构和递归神经网络结构,所述时延神经网络结构的上下文输入直接输入到递归神经网络结构中,与递归神经网络结构相结合,所述时延递归神经网络结构用于减少网络层数。进一步的,所述时延神经网络结构中,输出按照以下公式计算:Yt=f(WCt+b);Ct={Xt-n,Xt+n}其中Xt、Yt是t时刻的输入输出,f是非线性函数,WCt+b是仿射运算,W为仿射运算中的二维矩阵,b表示方向向量,Ct是经过拼接的上下文信息,n是下层网络上下文信息帧数,大于等于1;所述递归神经网络结构中,输出按照以下公式计算:Yt=f(WXt+WYt-1+b);所述时延递归神经网络结构中,将上述公式合并,输出按照以下公式计算:Yt=f(WCt+WYt-1+b);Ct={Xt-n,Xt+n}。进一步地,将普通神经网络结构与时延递归神经网络结构连接后,经过非线性变换,输出按照以下公式计算:Yt=f(WCt+WDt-1+b);Ct={Xt-n,Xt+n};Dt-1=f(WYt-1+b)。进一步地,该新型时延递归神经网络包含两个可调试的超参数,其中一个超参数为时延递归神经网络层的层数,调试范围为1~3层,另一个超参数为递归路径的长度,即深度神经网络层的层数,调试范围为为1~2层。进一步地,所述时延神经网络结构的上下文输入长度通常为8~20个语音采样帧。进一步地,该新型时延递归神经网络采用数据并行的训练方法,在数据并行训练过程的梯度更新步骤中,引入了动量这一概念来进行参数的平滑处理,在一次参数更新量计算完成后,新的参数按照以下公式进行平滑处理:value=α*value+(1-α)*update其中,value为模型参数,α为参数保留系数,update为数据并行的梯度更新步骤计算得到的待更新梯度。与现有技术比较,本专利技术的一种用于语音识别的新型时延递归神经网络具有以下优点和有益效果:在神经网络声学模型中,长短时记忆单元虽然对上下文的建模效果良好,但是其训练消耗资源过大。在混搭时延神经网络和长短时记忆单元的研究中发现,在一个普通的6层降采样时延神经网络中,额外添加一层长短时记忆单元会使得训练时间变为大约原来的两倍;而在效果更好的添加三层长短时记忆单元的混搭网络训练耗时大约是原网络的四倍。与此同时,参数量的增长也是相当可观的。基于这个问题,认为混搭的网络中存在一定的网络结构冗余,为了减少这种冗余,提出了一种新型的混搭时延神经网络和递归神经网络的网络构造方法,称之为时延递归神经网络。通过使用这种网络,可以在保持建模效果与原先混搭的时延神经网络和长短时记忆单元网络相似的同时,提高训练效率、减少模型体积。附图说明图1为典型降采样时延神经网络结构的示意图。图2为图1中插入一层递归神经网络结构的示意图。图3为图2中时延神经网络结构和递归神经网络结构结合为时延递归神经网络结构的示意图。图4为本专利技术的一种用于语音识别的新型时延递归神经网络结构示意图。具体实施方式下面将结合附图和具体的实施例对本专利技术的具体实施作进一步说明。需要指出的是,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图4所示,为本专利技术的一种用于语音识别的新型时延递归神经网络结构示意图,包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,所述线性判别分析层与时延神经网络层最下层连接,所述深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,所述时延递归神经网络层分别与上下两层时延神经网络层连接,所述深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接,所述深度神经网络层用于增加递归路径的深度,加强递归信息的表达能力。所述时延递归神经网络结构包括时延神经网络结构和递归神经网络结构,所述时延神经网络结构的上下文输入直接输入到递归神经网络结构中,与递归神经网络结构相结合,所述时延递归神经网络结构用于减少网络层数。实施例1如图1所示,为典型降采样时延神经网络结构的示意图,是一个锥形结构,其输入部分的经降采样的上下文数据帧的序号如表一。表一一个典型的降采样时延神经网络其中上下文信息表示网络层对输入的拼接方式,如{-3,3}表示将下层网络的过去第三帧和将来第三帧拼接在一起作为本层的输入。如图2所示,在图1所述典型降采样时延神经网络结构中的第二层和第三层之间插入一层任意的递归神经网络结构,增加网络的深度,使得网络更加难以训练,因此,将相邻的时延神经网络结构和递归神经网络结构直接合并为时延递归神经网络结构,即直接将时延神经网络结构的上下文输入直接输入到递归神经网络结构中,如图3所示。在述时延神经网络结构中,其输出按照以下公式计算:Yt=f(WCt+b);Ct={Xt-n,Xt+n}其中Xt、Yt是t时刻的输入输出,f是非线性函数,WCt+b是仿射运算,W为仿射运算中的二维矩阵,b表示方向向量,Ct是经过拼接的上下文信息,n是下层网络上下文信息帧数,大于等于1;在所述递归神经网络结构中,其输出按照以下公式计算:Yt=f(WXt+WYt-1+b);在所述时延递归神经网络结构中,将上述公式合并,其输出按照以下本文档来自技高网...

【技术保护点】
1.一种用于语音识别的新型时延递归神经网络,其特征在于:包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,所述线性判别分析层与时延神经网络层最下层连接,所述深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,所述时延递归神经网络层分别与上下两层时延神经网络层连接,所述深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接,所述深度神经网络层用于增加递归路径的深度,加强递归信息的表达能力。

【技术特征摘要】
1.一种用于语音识别的新型时延递归神经网络,其特征在于:包括线性判别分析层、时延神经网络层和深度时延递归神经网络层,所述线性判别分析层与时延神经网络层最下层连接,所述深度时延递归神经网络层设置在两个时延神经网络层之间,包括深度神经网络层和时延递归神经网络层,所述时延递归神经网络层分别与上下两层时延神经网络层连接,所述深度神经网络层中的普通神经网络结构与时延递归神经网络层中的时延递归神经网络结构对应连接,所述深度神经网络层用于增加递归路径的深度,加强递归信息的表达能力。2.根据权利要求1所述的一种用于语音识别的新型时延递归神经网络,其特征在于:所述时延递归神经网络结构包括时延神经网络结构和递归神经网络结构,所述时延神经网络结构的上下文输入直接输入到递归神经网络结构中,与递归神经网络结构相结合,所述时延递归神经网络结构用于减少网络层数。3.根据权利要求1所述的一种用于语音识别的新型时延递归神经网络,其特征在于,所述时延神经网络结构中,其输出按照以下公式计算:Yt=f(WCt+b);Ct={Xt-n,Xt+n}其中Xt、Yt是t时刻的输入输出,f是非线性函数,WCt+b是仿射运算,W为仿射运算中的二维矩阵,b表示方向向量,Ct是经过拼接...

【专利技术属性】
技术研发人员:刘柏基张伟彬徐向民
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1