神经网络模型训练装置和方法制造方法及图纸

技术编号:14117367 阅读:404 留言:0更新日期:2016-12-08 00:37
本公开涉及神经网络模型训练装置和方法。所述装置包括:迭代计算单元,用于对神经网络模型中的路径的权重进行迭代计算;以及判断与输出单元,用于当满足停止迭代的条件时,停止迭代,并输出本次迭代的路径的权重作为最终权重,其中,迭代计算单元包括:权重计算单元,用于计算本次迭代的路径的权重;相关函数计算单元,用于从用于训练所述神经网络模型的样本集合中随机选取一个样本,并根据本次迭代的路径的权重来计算所选样本的相关函数,并且保持样本集合中除所选样本之外的其它样本的相关函数不变,样本的相关函数是与样本的损失函数相关联的函数;以及总相关函数计算单元,用于根据所选样本和其它样本的相关函数来计算本次迭代的总相关函数。

【技术实现步骤摘要】

本公开涉及神经网络的
,具体地涉及神经网络模型训练装置和方法
技术介绍
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。在用于训练神经网络的技术方案中,最近研究者提出的若干近增量梯度法,包括MISO(Minimization by Incremental Surrogate Optimization,采用增量替代优化最小化),Prox-SDCA(Proximal Stochastic Dual Coordinated Ascent,近随机双坐标上升),Prox-SVRG(Proximal Stochastic Variance Reduced Gradient,近随机方差缩减梯度)和SAG(Stochastic Average Gradient,随机平均梯度),都达到了线性收敛速度。然而,当实际应用于训练神经网络时,特别是训练大型的神经网络时,这些方法的收敛速度仍然无法令人满意。
技术实现思路
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。本公开的目的在于提供一种神经网络模型训练装置和方法,其能够采用二阶信息来获得更快的收敛效果,从而不仅在函数目标值方面,而且在求解方面都实现了线性收敛速度。根据本公开的一方面,提供了一种神经网络模型训练装置,该装置包括:迭代计算单元,用于对神经网络模型中的路径的权重进行迭代计算;以及判断与输出单元,用于当满足停止迭代的条件时,停止迭代,并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重,其中,所述迭代计算单元包括:权重计算单元,用于计算本次迭代的路径的权重;相关函数计算单元,用于从用于训练所述神经网络模型的样本集合
中随机选取一个样本,并根据本次迭代的路径的权重来计算所选样本的相关函数,并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变,其中样本的相关函数是与所述样本的损失函数相关联的函数;以及总相关函数计算单元,用于根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。根据本公开的另一方面,提供了一种用于训练神经网络模型以便进行模式识别的方法,该方法包括:对所述神经网络模型中的路径的权重进行迭代计算;以及当满足停止迭代的条件时,停止迭代,并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重,其中对所述神经网络模型中的路径的权重进行迭代计算包括:计算本次迭代的路径的权重;从用于训练所述神经网络模型的样本集合中随机选取一个样本,并根据本次迭代的路径的权重来计算所选样本的相关函数,并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变,其中样本的相关函数是与所述样本的损失函数相关联的函数;以及根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的神经网络模型训练方法。使用根据本公开的神经网络模型训练装置和方法,可以具有近随机梯度方法的低迭代成本,但是达到了近全梯度法的收敛速度,从而不仅在函数目标值方面,而且在求解方面都实现了线性收敛速度。从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。附图说明在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:图1为适用于本公开的神经网络模型的示意图;图2为图示根据本公开的实施例的神经网络模型训练装置的结构的框图;图3为根据本公开的实施例的神经网络模型训练方法的流程图;图4为根据本公开的另一实施例的神经网络模型训练方法的流程图;图5为根据本公开的另一实施例的神经网络模型训练方法的流程图;以及图6为其中可以实现根据本公开的实施例的神经网络模型训练装置和方法的通用个人计算机的示例性结构的框图。虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。具体实施方式现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。图1示出了适用于本公开的神经网络模型的例子。如图1所示,示出了一个简单的四层神经网络,它由一个输入层、二个隐藏层和一个输出层组成。层与层之间的链接表示互连,而这些链接有可以修改的权重。需要说明的是,本公开对于神经网络模型的层数并没有特殊限制。换言之,神经网络模型既可以具有更少的层(如三层),也可以具有更多的层(如五层或更多)。神经网络模型可以用在很多方面,例如可以用于模式识别等。具体地,模式识别例如包括人脸识别、说话人识别等。以人脸识别为例,多个人脸图像可以构成样本集合,其中每个样本对应于具体的人脸图像。针对每一
个人脸图像,可以提取与之相对应的特征向量,该特征向量例如可以用[x1,x2,xi,…,xn]来表示。具体的特征向量提取方法在本领域中是众所周知的,本公开对此不再加以详述。如图1所示,可以将特征向量中的元素作为输入,分别输入到神经网络模型的输入层中的各个神经元中。在这之后,每个隐藏层中的神经元可以计算其输入的加权总和,亦即输入与隐藏层神经元权重的内积,从而形成了网络的激励,这里简单地表示为net。输出单元(输出层的神经元)可以通过对net做非线性变换得到最后结果。具体地,对于输入层到第一隐藏层,可以得到如下结果: net j = Σ i = 1 a x i w ji + w j 0 = Σ i = 0 a x i w ji = w j T x . ( j = 1 , . 本文档来自技高网
...
神经网络模型训练装置和方法

【技术保护点】
一种神经网络模型训练装置,包括:迭代计算单元,用于对神经网络模型中的路径的权重进行迭代计算;以及判断与输出单元,用于当满足停止迭代的条件时,停止迭代,并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重,其中,所述迭代计算单元包括:权重计算单元,用于计算本次迭代的路径的权重;相关函数计算单元,用于从用于训练所述神经网络模型的样本集合中随机选取一个样本,并根据本次迭代的路径的权重来计算所选样本的相关函数,并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变,其中样本的相关函数是与所述样本的损失函数相关联的函数;以及总相关函数计算单元,用于根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。

【技术特征摘要】
1.一种神经网络模型训练装置,包括:迭代计算单元,用于对神经网络模型中的路径的权重进行迭代计算;以及判断与输出单元,用于当满足停止迭代的条件时,停止迭代,并输出本次迭代的路径的权重作为所述神经网络模型中的路径的最终权重,其中,所述迭代计算单元包括:权重计算单元,用于计算本次迭代的路径的权重;相关函数计算单元,用于从用于训练所述神经网络模型的样本集合中随机选取一个样本,并根据本次迭代的路径的权重来计算所选样本的相关函数,并且保持所述样本集合中除所选样本之外的其它样本的相关函数不变,其中样本的相关函数是与所述样本的损失函数相关联的函数;以及总相关函数计算单元,用于根据所选样本的相关函数和所述其它样本的相关函数来计算本次迭代的总相关函数。2.根据权利要求1所述的装置,其中,所述相关函数为损失函数,所述总相关函数为总损失函数,并且所述总损失函数是对每个样本的损失函数求平均得到的。3.根据权利要求2所述的装置,其中,所述相关函数计算单元根据权重变量与本次迭代的路径的权重的差值的二阶信息来计算所选样本的损失函数。4.根据权利要求2所述的装置,其中,所述权重计算单元根据本次迭代之前的路径的权重和总损失函数来计算本次迭代的路径的权重。5.根据权利要求4所述的装置,其中,所述权重计算单元使得以所述本次迭代之前的路径的权重的范数和所述总损失函数为变量的函数取得最小值时的路径的权重作为...

【专利技术属性】
技术研发人员:石自强刘汝杰
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1