当前位置: 首页 > 专利查询>微软公司专利>正文

联合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络制造技术

技术编号:7898399 阅读:351 留言:0更新日期:2012-10-23 04:30
本发明专利技术涉及结合非线性随机投影、受限波尔兹曼机、以及基于批量的可并行优化来使用的深凸网络。本文公开了一种包括以下动作的方法:使得处理器访问深结构化的、已分层的、或分等级的模型(称为深凸网络,被保持在计算机可读介质中),其中该深结构化的模型包括具有所分配的权重的多个层。这一已分层模型可以产生输出,该输出担当用于与隐马尔科夫模型中的各状态之间的转移概率相组合的分数,以及担当用于形成全语音识别器的语言模型分数。该方法联合使用非线性随机投影和RBM权重,并且它将较低模块的输出与原始数据进行堆叠以建立它的紧接的较高模块。执行基于批量的凸优化来学习深凸网络的权重的一部分,从而使它适于并行计算来完成训练。该方法还可包括使用基于序列而非一组不相关帧的优化准则来对该深度结构化的模型的权重、转移概率和语言模型分数进行联合地充分优化的动作。

【技术实现步骤摘要】

本专利技术涉及与自动分类有关的技术。
技术介绍
语音识别已经是大量研究和商业开发的课题。例如,语音识别系统已经合并到移动电话、台式计算机、汽车等等中以便提供对用户所提供的语音输入的特定响应。例如,在配备有语音识别技术的移动电话中,用户可以讲出移动电话中所列出的联系人的姓名,并且移动电话可以发起对该联系人的呼叫。此外,许多公司当前正在使用语音识别技术来在标识公司雇员、标识产品或服务的问题等等方面帮助顾客。部分地被利用人类语音生成和感知系统中某些类似属性的要求所激励,对自动语音识别(ASR)的研究已经开拓了分层的体系结构来执行语音识别。在这些研究中,对模型参数的学习已经是最显著且最困难的问题之一。与ASR研究中的发展并行,来自神经网络研究的学习方法中所取得的当前进展已经点燃了对探查深度结构化模型的兴趣。一个具体的进步是深度信任网络(DBN)的有效学习技术的开发,该深度信任网络是具有许多隐藏层的密集连接的、有向的信任网络。一般而言,DBN可被认为是具有多层隐藏单元和至少一层可见单元的高度复杂的非线性特征提取器,其中隐藏单元的每一层进行学习来表示在原始输入数据中捕捉更高阶相关的特征。尽管DBN已经显示了在结合执行识别/分类任务时很强大,但对DBN进行训练已经证明是有点困难的。具体而言,用于训练DBN的常规技术涉及对随机梯度下降学习算法的利用。尽管这一学习算法已经显示了在结合对分配给DBN的权重进行微调时很强大,但这样的学习算法极其难以在各机器之间并行化,从而使得学习有点冗长。
技术实现思路
以下是在本文详细描述的主题的简要的
技术实现思路
。本
技术实现思路
不旨在是关于权利要求的范围的限制。本文描述了与自动分类有关的各种技术。更具体而言,本文描述了与自动语音识别(ASR)和自动字符识别有关的各种技术。再具体一点,本文描述了与通过利用凸优化来训练深凸网络有关的各种技术。深凸网络包括多个已分层模块,其中每一模块包括包含单个隐藏层的专用神经网络。更具体而言,深凸网络中的最低模块包括第一线性层、非线性层和第二线性层,该第一线性层包括多个线性输入单元,该非线性层包含多个非线性隐藏单元,该第二线性层包括通过将原始训练数据馈送到该模块而产生的多个线性输出单元。例如,如果结合对图像进行分析来使用深凸网络,则该多个输入单元可以对应于图像中的多个像素(或所提取的特征),并且可至少部分地基于与各像素相对应的强度值、RGB值等来向这些输入单元分配值。在另一示例中,如果结合ASR来使用深凸网络,该多个输入单元可对应于音频文件的各样本,其中分配给输入单元的值基于相应样本的特性,或对应于从语音波形中提取的特征(如功率谱或倒谱系数)。最低模块的隐藏层包括通过第一权重矩阵来映射到各输入单元的多个非线性单元。例如,权重矩阵可包括0和I之间的多个随机生成的值。非线性单元可以是被配置成对来自输入单元的已加权输出(根据第一权重矩阵进行了加权)执行非线性操作的S (sigmoidal)单兀。第二线性层包括表示分类任务的目标的多个输出单元。例如,如果深凸网络被配置成执行图像形式或语音形式的数字识别(例如,数字1-10),则该多个输出单元可以表示值1、2、3等等,直至10。类似地,如果深凸网络被配置成执行音素识别(或更一般地,大词汇量语音识别),则该多个输出单元可以表示单音素、上下文相关音素或音素状态。该多个非线性单元可通过第二权重矩阵来映射到该多个输出单元。该第二权重矩阵可通过基于批 量的学习过程来习得,使得学习可以并行进行。具体而言,可以结合学习第二权重矩阵来使用凸优化。作为示例,第二权重矩阵可以至少部分基于第一权重矩阵、分类的目标值、以及输入单兀的值来学习。如上所示,深凸网络包括多个已分层模块,其中每一模块包括上述三个层(包括多个线性输入单元的第一线性层、包括多个非线性单元的隐藏层、以及包括多个线性输出单元的第二线性层)。各模块在本文中被称为已分层的,因为在深凸网络中,较低模块的输出单元是相邻较高模块的输入单元的子集。更具体而言,在深凸网络中直接处于最低模块之上的第二模块中,输入单元可包括最低模块的输出单元。输入单元可另外包括与原始训练数据相对应的输入单元一换言之,最低模块的输出单元可以附加在第二模块的输入单元上,使得第二模块的输入单元还包括最低模块的输出单元。如上所述,第二模块中的与原始训练数据相对应的输入单元可通过第一权重矩阵来映射到多个隐藏层。第二模块中的作为最低模块的输出单元的输入单元可通过第三权重矩阵来映射到多个隐藏层,其中这些权重可以在预训练阶段习得。此后,可通过凸优化来再次学习上述第二权重矩阵(其描述第二模块的隐藏单元与线性输出单元之间的连接的权重)。将较低模块的输出单元作为深凸网络中相邻的较高模块的输入单元的一部分来包括并随后经由凸优化来学习描述隐藏单元和线性输出单元之间的连接权重的权重矩阵的这一模式可针对多个模块(例如,数十到数百模块)继续进行。所得的学习到的深凸网络随后可结合自动分类/标识任务来部署。在阅读并理解了附图和描述后,可以明白其他方面。附图说明图I示出包括多个已分层模块的示例性深凸网络。图2示出深凸网络中的示例性最低模块。图3示出深凸网络中的示例性第N模块。图4示出便于通过并行计算来学习深凸网络中的权重矩阵的示例性系统的功能框图。图5是示出用于以基于批量的方式来训练深凸网络的示例性方法的流程图。图6是示出用于通过凸优化来学习深凸网络中的矩阵权重的示例性方法的流程图。图7是不例性计算系统。具体实施例方式现在将参考附图来描述关于深凸网络(DCN)的各种技术,在全部附图中相同的附图标记表示相同的元素。另外,本文出于解释的目的示出并描述了各示例系统的若干功能框图;然而可以理解,被描述为由特定系统组件执行的功能可以由多个组件来执行。类似地,例如可以将一组件配置为执行被描述为由多个组件执行的功能,并且在此所述的方法中的一些步骤可以被省略、重排序、或者组合。参考图1,示出了示例性DCN 100,其中DCN(在进行了训练之后)可结合执行自动分类/识别来使用。根据一示例,DCN 100可被用于执行自动语音识别(ASR)。在另一示例 中,DCN 100可被用于执行字符识别(手写识别)。在又一示例中,DCN 100可被用于执行脸部识别。在又一示例中,DCN 100可被用于执行文本到一个或多个主题的分类。自动分类/识别领域的技术人员将容易理解DCN 100的其他应用。DCN 100包括多个已分层模块102-104,其中DCN 100中的已分层模块的数量可取决于应用、被用于训练DCN 100和/或利用DCN 100来进行自动分类/识别的计算装置中的可用计算资源(例如,处理和存储器资源)而变化。例如,模块的数量可以是数十、或数百、或数千。模块102-104中的每一个模块可以是具有单个隐藏层的神经网络,其中可通过凸优化来学习该模块中的权重矩阵,如将在下文更详细地描述的。这便于以基于批量的方式来训练DCN 100,使得对DCN 100的训练(对模块102-104的权重矩阵进行学习)可以跨多个计算设备来并行化。另外,模块102-104中的每一个模块可包括围绕该单个隐藏层的一组线性层。这些线性层可分别包括多个输入单元和多个输出单元。隐藏层包括多个非线性单元。利本文档来自技高网...

【技术保护点】
一种方法,包括以下计算机可执行动作:接收用于训练包括多个互连的模块的深凸网络的训练数据,其中所述多个互连的模块中的每一模块包括线性层和非线性层;以及使得处理器至少部分基于所述训练数据来以基于批量的方式来训练所述深凸网络的一部分,其中训练所述深凸网络包括学习与至少一个模块的非线性层的输出相对应的权重矩阵。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:L·邓D·余A·埃西罗
申请(专利权)人:微软公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1