当前位置: 首页 > 专利查询>微软公司专利>正文

深层神经网络的辨别预训练制造技术

技术编号:8594296 阅读:402 留言:0更新日期:2013-04-18 07:36
本发明专利技术公开了深层神经网络的辨别预训练。提出了预训练深层神经网络(DNN)的隐层的辨别预训练技术实施例。大体上,首先利用误差反向传播(BP)使用标签来辨别地训练单隐层神经网络。然后,在丢弃之前的单隐层神经网络的输出层之后,连同新输出层在之前训练的隐层的顶上添加另一随机初始化的隐层,所述新输出层表示分类或识别的目标。然后利用同一策略辨别地训练作为结果产生的多隐层DNN等等,直到达到期望数量的隐层。这产生了预训练的DNN。所述辨别预训练技术实施例具有如下的优点:使得DNN层权重接近良好的局部最优,而仍使其留在具有高梯度的范围内,从而能够有效地对其进行微调。

【技术实现步骤摘要】

本专利技术涉及一种用于深层神经网络的辨别预训练的方法和系统。
技术介绍
已知深层神经网络(DNN, deep neural network)是有力的辨别建模工具,并且其能够用于各种目的。例如,能够组合DNN与隐式马尔可夫模型(HMM,hidden Markov model)来表征作为语音的发音单位的上下文相关(⑶,context-dependent)的音素。作为结果产生的混合⑶-DNN-HMM利用DNN的暂时地(temporally)局部化的辨别建模能力和HMM的连续建模能力的优点。CD-DNN-HMM能够用于语音识别系统、手写识别系统、以及包括姿势识别系统在内的人类行为识别/检测系统等许多其它系统。在构建这样的⑶-DNN-HMM中的关键过程之一是DNN的训练。这个训练典型地通过首先初始化权重来进行,并且作为“预训练”过程已知。
技术实现思路
通常采用此处描述的辨别预训练技术实施例来预训练深层神经网络(DNN)的隐层。此处所描述的辨别预训练技术实施例具有如下优点使得DNN层权重接近良好的局部最优,同时仍使其留在具有高梯度的范围内,从而能够在训练的后续阶段对其进行有效地微调。在一个示例性辨别预训练技术实施例中,通过首先训练单隐层神经网络(NN)预训练DNN,所述单层神经网络具有输入层,训练数据被输入到所述输入层中;输出层,从所述输出层生成输出;以及第一隐层,所述第一隐层以随机初始化的权重与所述输入层和所述输出层相互连接。该训练涉及访问训练数据条目集,训练数据条目集中的每个训练数据条目具有分配到其上的对应标签。之后每个数据条目被一个接一个地输入到单隐层神经网络的输入层中,直到全部数据条目已经被输入至少一次。应该注意的是,在输入每个数据条目之后,经由误差反向传播(BP,baCk-piOpagation)过程设置与第一隐层关联的权重,以使得从输出层生成的输出匹配与训练数据条目关联的标签。这产生了初始的NN。一旦已经训练了单隐层NN,则丢弃当前输出层并且添加以随机初始化的权重与最近一个之前训练的隐层和新输出层相互连接的新的隐层,以产生新的多隐层DNN。之后如下训练最近产生的新的多隐层DNN。将训练集的每个数据条目一个接一个地输入到最近产生的新的多隐层DNN的输入层,直到全部数据条目已经被输入至少一次。应该注意的是,在输入每个数据条目之后,经由BP设置与新的隐层和每个之前训练的隐层关联的权重,以使得从输出层生成的输出匹配与训练数据条目关联的标签。这产生了比之前的DNN多一层的更深的神经网络。之后以相同的方式添加和训练另外的新的隐层,直到已经添加了规定数量的隐层。之后将作为结果的最近产生的修正的多层DNN指定为预训练的DNN。应当注意的是,提供本概要来以简单的形式引入概念的选择,下面在具体实施方式中进一步描述了这些概念。该概要不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用来帮助判定所要求保护的主题的范围。附图说明结合下面的描述、所附的权利要求以及附图,将更好理解本公开的具体特征、方面和优点,在附图中图1为用来实施此处所描述的辨别预训练技术实施例的示例性计算程序体系结构。图2为概述了用于预训练深层神经网络(DNN)的预训练技术处理的一种实施方式的流程图。图3为概述了用于执行微调预训练好的DNN的多迭代处理的迭代的处理的一种实施方式的流程图。图4为描绘了构成用于实施此处所描述的辨别预训练技术实施例的示例性系统的通用计算装置的图。具体实施例方式在辨别预训练技术实施例的下面的描述中参考了附图,所述附图形成说明书的一部分,其中以图示的方式示出了可以实践本技术的具体实施例。应该理解的是,也可使用其它实施例并且可以做出结构改变而不脱离本技术的范围。1. O深层神经网络的辨别预训练和微调通常采用此处所描述的辨别预训练技术实施例来预训练深层神经网络(DNN)的隐层。这产生了预训练的DNN,所述预训练的DNN能够被微调以产生完全训练的DNN。为了这个描述的目的,将完成的DNN定义为具有多于一个隐层的神经网络。此外,术语“预训练”指的是获得经受进一步修改的全部层中的DNN权重的过程,所述进一步修改基于贯穿DNN中的全部层的纯辨别学习过程。一个这样的辨别学习过程是上述微调,所述微调要求贯穿从顶层到底层的全部DNN层的BP。经训练的DNN能够用于各种目的。例如,DNN能够直接地建模绑定的上下文相关(CD)状态或者以建模上下文无关状态的上下文无关方式建模。在建模绑定的CD状态的情况下,如之前所指出的那样,DNN能够建模上下文相关(CD)音素并且能够与隐式马尔可夫模型(HMM)组合。作为结果的混合CD-DNN-HMM利用DNN的辨别建模能力与HMM的连续建模能力的优点。CD-DNN-HMM能够用于语音识别系统、手写识别系统、以及人类行为识别/检测系统等许多其它系统。在语音识别系统的情况下,诸如用在话音搜索任务或switchboard(电话语音识别标准数据集)电话呼叫转写任务中,CD-DNN-HMM用来在HMM语音识别器中直接对语音单元(senone)建模(绑定的⑶状态)并且近似这些语音单元的发出概率。语音单元表示成簇的(或绑定的)的上下文相关的三音素(triphone)状态。然而,不旨在将此处所描述的辨别预训练技术实施例限制为语音识别系统、或任何其它上述系统。而是,能够与用于任何目的的任何DNN —起采用此处所描述的辨别预训练技术实施例。1.1深层神经网络可以将DNN认作为具有许多隐层的传统多层感知器(MLP,mult1-layerperceptrons)0具体地,DNN将给定了观测向量o的类s的后验概率Ps|。(s|o)建模为对数 线性模型的(L+1)层的栈。前L层,1 = 0…L-1,将给定输入向量v1的隐式ニ进制输出单 兀h1建模为伯努利分布本文档来自技高网...

【技术保护点】
一种用于预训练深层神经网络DNN的计算机实施的处理,包括:利用计算机来执行下面的处理动作:(a)训练单隐层神经网络NN,所述单隐层神经网络包括:输入层,训练数据被输入到所述输入层中;输出层,从所述输出层生成输出;以及第一隐层,所述第一隐层以随机初始化的权重与所述输入层和所述输出层相互连接,其中所述训练包括:访问训练数据条目集,所述训练数据条目集中的每个数据条目具有分配到其上的对应标签(200),将所述集中的每个数据条目一个接一个地输入到所述输入层中,直到全部所述数据条目已经被输入了至少一次以产生初始的NN(202),从而在每个数据条目的所述输入之后,经由误差反向传播过程设置与所述第一隐层关联的所述权重,以使得从所述输出层生成的所述输出匹配与所述训练数据条目关联的所述标签;(b)丢弃当前输出层并且添加以随机初始化的权重与最近一个之前训练的隐层和新输出层相互连接的新的隐层,以产生新的多隐层深层神经网络(204);(c)将所述集中的每个数据条目一个接一个地输入到所述输入层,直到全部所述数据条目已经被输入了至少一次,以产生修正的多隐层深层神经网络(206),从而在每个数据条目的所述输入之后,经由所述误差反向传播过程设置与所述新的隐层和每个之前训练的隐层关联的所述权重,以产生与所述训练数据条目关联的所述标签匹配的来自所述新输出层的输出;(d)重复动作(b)和(c),直到已经添加了规定数量的隐层(208);以及(e)将最近产生的修正的多层DNN指定为预训练的DNN(210)。...

【技术特征摘要】
2011.11.26 US 13/304,6431.一种用于预训练深层神经网络DNN的计算机实施的处理,包括 利用计算机来执行下面的处理动作 Ca)训练单隐层神经网络NN,所述单隐层神经网络包括输入层,训练数据被输入到所述输入层中;输出层,从所述输出层生成输出;以及第一隐层,所述第一隐层以随机初始化的权重与所述输入层和所述输出层相互连接,其中所述训练包括 访问训练数据条目集,所述训练数据条目集中的每个数据条目具有分配到其上的对应标签(200), 将所述集中的每个数据条目一个接一个地输入到所述输入层中,直到全部所述数据条目已经被输入了至少一次以产生初始的NN(202),从而在每个数据条目的所述输入之后,经由误差反向传播过程设置与所述第一隐层关联的所述权重,以使得从所述输出层生成的所述输出匹配与所述训练数据条目关联的所述标签; (b)丢弃当前输出层并且添加以随机初始化的权重与最近一个之前训练的隐层和新输出层相互连接的新的隐层,以产生新的多隐层深层神经网络(204); (c)将所述集中的每个数据条目一个接一个地输入到所述输入层,直到全部所述数据条目已经被输入了至少一次,以产生修正的多隐层深层神经网络(206),从而在每个数据条目的所述输入之后,经由所述误差反向传播过程设置与所述新的隐层和每个之前训练的隐层关联的所述权重,以产生与所述训练数据条目关联的所述标签匹配的来自所述新输出层的输出; (d)重复动作(b)和(C),直到已经添加了规定数量的隐层(208);以及 Ce)将最近产生的修正的多层DNN指定为预训练的DNN (210)。2.根据权利要求1所述的处理,其中被采用的每个输出层利用softmax函数来使其输出与当前进入的训练数据条目关联的所述标签匹配。3.根据权利要求1所述的处理,其中所述访问训练数据条目集,所述训练数据条目集中的每个数据条目具有分配到其上的对应标签的处理动作包括访问语音帧集,所述语音帧集中的每个语音帧对应于语音单元标签。4.根据权利要求1所述的处理,其中所述将所述集中的每个数据条目一个接一个地输入到所述输入层中,直到全部所述数据条目已经被输入了至少一次以产生初始的深层神经网络的处理动作包括将所述集的每个数据条目仅输入一次。5.根据权利要求1所述的处理,其中所述将所述集中的每个数据条目一个接一个地输入到所述输入层,直到全部所述数据条目已经被输入了至少一次,以产生修正的多隐层深层神经网络的处理动作包括将所述集中的每个数据条目仅输入一次。6.根据权利要求1所述的处理,其中用于设置与所述第一隐层关联的所述权重的所述误差反向传播过程采用范围在O. 01和O. 20之间的规定的学习速率。7.根据权利要求1所述的处理,其中用于设置与每个新的隐层和每个之前训练的隐层关联的所述权重的所述误差反向传播过程采用范围在O. 01和O. 20之间的规定的学习速率。8.一种用于训练上下文相关的深层神经网络⑶-DNN的系统,包括 计算装置(10); 包括能够由所述计算装置执行的程序模块的计算机程序,所述计算机程序包括隐层生成器程序模块(100),其中所述隐层生成器程序模块指示所述计算装置 初始地生成单隐层神经网络,所述单隐层神经网络包括输入层,训练数据被输入到所述输入层中;输出层,从所述输出层生成输出;以及第一隐层,所述第一隐层以随机初始化的权重与所述输入层和所述输出层相互连接, 每当产生所述单隐层神经网络的预训练版本时,丢弃当前输出层并添加以随机初始化的权重与所述第一隐层和新输出层相互连接的新的隐层,以产生多隐层深层神经网络,以及 每当最近产生的多隐层深层神经网络的预训练版本被产生并被指定为缺少规定数量的隐层时,丢弃所述当前输出层并添加以随机初始化的权重与最近一个之前添加的隐层和新输出层相互连接的新的隐层,以产生新的多隐层深层神经网络, 预训练程序模块(102),...

【专利技术属性】
技术研发人员:弗兰克塞得邓丽俞栋李钢
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1