学习系统与学习方法技术方案

技术编号:18367728 阅读:61 留言:0更新日期:2018-07-05 09:23
本发明专利技术提供一种能够高速更新神经网络用参数的学习系统与学习方法。学习系统具有多个微分值计算部与参数更新部,对神经网络用参数进行更新,其中,多个微分值计算部互不同步地执行下列动作:从参数更新部接收某时间点的参数;根据接收到的参数计算用于更新参数的微分值;将微分值发送给参数更新部,参数更新部执行下列动作:从微分值计算部接收微分值;与多个微分值计算部的微分值计算不同步地根据接收到的微分值更新参数;将更新后的参数发送给多个微分值计算部,微分值计算部在计算微分值时考虑与更新次数对应的过时而计算微分值,该更新次数为从参数的接收时间点开始到计算的微分值被参数更新部用来更新参数为止的期间内,参数被更新的次数。

Learning system and learning method

The invention provides a learning system and a learning method capable of updating the parameters of the neural network at high speed. The learning system has a number of differential value computing units and parameter updating units, and the neural network is updated with parameters, in which the multiple differential value units do not synchronously perform the following actions: the parameters of a time point are received from the parameter update department; the differential values are used to update the parameters according to the received parameters; the differential values are sent to the differential values. To the parameter update department, the parameter update department performs the following action: the differential value is received from the differential value calculation unit; the differential value calculation of the multiple differential value calculation department is not synchronously updated according to the received differential value; the updated parameters are sent to the multiple differential value calculation department, and the differential value calculation unit is used for the calculation of the differential value. Considering the obsolescence corresponding to the number of updates, the differential value is calculated, which is the number of times the parameter is updated during the period from the reception time point of the parameter to the calculated differential value that is used by the parameter update department to update the parameters.

【技术实现步骤摘要】
学习系统与学习方法
本专利技术涉及一种对神经网络用参数进行更新的学习系统与学习方法。
技术介绍
在图像识别领域存在称作一般物体识别的问题。该问题是对图像中存在的鸟、车等物体的种类(class)进行推定的问题。近年来,一般物体识别问题的识别性能的改善很显著,这很大程度是层数多的卷积神经网络(ConvolutionNeuralNetwork,以下称作CNN。例如参考非专利文献1)带来的。在图像识别领域过去提出过各种各样的识别算法,但随着学习数据(输入数据与正确答案之组合)变得庞大,出现了CNN超出了其他算法识别性能的倾向。CNN的模型表现能力较高,但另一方面,一直有人指出CNN存在学习数据的特征过度特化这种称作“过学习”的问题。但是,近年来学习数据的量已经逐渐增大到了能够避免过学习问题的水平。现有技术文献非专利文献非专利文献1:RenWu,ShengenYan,YiShan,QingqingDang,andGangSun,"DeepImage:ScalingupImageRecognition",arXiv:1501.02876v2.非专利文献2:C.M.Bishop,"NeuralNetworksforPatternRecognition",p267-268,ClarendonPress(1996).非专利文献3:Y.Nesterov,"Amethodforunconstrainedconvexminimizationproblemwiththerateofconvergenceo(1/k2)".DokladyANSSSR(translatedasSoviet.Math.Docl.),vol.269,pp.543-547(1983).非专利文献4:I.Sutskever,"TrainingRecurrentneuralNetworks",PhDThesis,(2013).非专利文献5:J.Dean,etal.,"LargeScaleDistributedDeepNetworks",NIPS2012.
技术实现思路
专利技术要解决的技术问题CNN虽然在识别性能方面优势很大,但同时存在学习时间长的弱点。社交网络相关数据、自动驾驶相关数据等作为今后仍然不断增加的数据之一例,学习时间变得过于庞大,需要充分考虑在实质的时间内学习不能完成的可能性。有时候学习的时间需要以年单位计算。这种情况下,产品化不现实,有时不得不使用识别性能较差的CNN以外的算法。也就是说,神经网络学习彻底实现高速化对于产业应用来说是极为重要的课题。本专利技术立足于现有技术中存在的这种问题,所要解决的技术问题是提供一种能够高速更新神经网络用参数的学习系统与学习方法。解决技术问题的方法本专利技术的一个方案是提供一种学习系统,具有多个微分值计算部与参数更新部,对神经网络用参数进行更新,其中,所述多个微分值计算部互不进行同步地执行下列动作:从所述参数更新部接收某个时间点的参数;根据所接收到的参数计算出用于更新所述参数的微分值;将所述微分值发送给所述参数更新部,所述参数更新部执行下列动作:从所述微分值计算部接收所述微分值;与所述多个微分值计算部的微分值计算不进行同步地根据所接收到的所述微分值更新所述参数;将更新后的所述参数发送给所述多个微分值计算部,所述微分值计算部在计算所述微分值时,考虑与更新次数对应的过时而计算所述微分值,所述更新次数为从所述参数的接收时间点开始到所计算的微分值被所述参数更新部用来更新所述参数为止的期间内,所述参数被更新的次数。由于在非同步型分散方式中考虑了过时,所以能够高速地更新参数。优选所述微分值计算部考虑所述过时,计算出在所计算的微分值被所述参数更新部用来更新所述参数时的参数的预测值,对该预测值进行微分而计算出所述微分值。这种情况下,优选所述微分值计算部根据所述某个时间点的参数、所述某个时间点之前的时间点的参数、及所述过时,计算出所述预测值。具体而言,设所述某个时间点τ的参数为W(τ),所述某个时间点之前的时间点(τ-1)的参数为W(τ-1),所述过时为sn,且γ∈(0,1)时,所述预测值P(τ)为由于并非对所接收到的参数本身,而是对与用来更新时的参数接近的预测值进行微分,所以能够高速地更新参数。所述微分值计算部可以随着学习的推进相应地增大所述γ。或者,所述参数更新部可以使用所述微分值与学习系数相乘得到的值更新所述参数,随着学习的推进相应地增大所述学习系数。再者,可以在从学习开始至进行规定次数的参数更新的期间内,由所述参数更新部对更新量进行调节以使得所述参数的更新量的绝对值或标准不超过规定值。通过这样,能够防止学习的早期目的函数变得不稳定。本专利技术的另一种方案是提供一种更新神经网络用参数的学习方法,包括:多个微分值计算部互不进行同步地执行从所述参数更新部接收某个时间点的参数的步骤;根据所接收到的参数计算出用于更新所述参数的微分值的步骤;以及将所述微分值发送给所述参数更新部的步骤,所述参数更新部执行从所述微分值计算部接收所述微分值的步骤;与所述多个微分值计算部的微分值计算不进行同步地根据所接收到的所述微分值更新所述参数的步骤;以及将更新后的所述参数发送给所述多个微分值计算部的步骤,在所述微分值计算部计算所述微分值的步骤中,考虑与更新次数对应的过时而计算所述微分值,所述更新次数为从所述参数的接收时间点开始到所计算的微分值被所述参数更新部用来更新所述参数为止的期间内,所述参数被更新的次数。专利技术的效果由于考虑了过时,所以能够高速地更新参数。附图说明图1是示意性表示CNN结构之一例的图。图2是基于NAG法的参数更新的说明图。图3是示意性说明同步型的微分值计算与参数更新的定时的图。图4是示意性说明非同步型的微分值计算与参数更新的定时的图。图5是示出一实施方式的分散方式学习系统的一个结构示例的概略框图。图6是本实施方式的参数更新的说明图。图7是对本专利技术的误差d1与现有技术的误差d2进行比较的图表。图8是示出重复进行了学习时的错误率变迁的图表。具体实施方式以下,参照附图具体说明本专利技术的实施方式。图1是示意性表示CNN结构之一例的图。CNN包括一个或多个卷积层121与池化层122的组,以及多层神经网络结构123。第一个卷积层121被输入识别对象(以下称作图像数据)。多层神经网络结构123输出识别结果。卷积层121对所输入的图像数据(对于第一个卷积层121是识别对象的图像数据、对于第二个及以后的卷积层121是后述的特征图)应用过滤器21a进行卷积,接着进行非线性映射。过滤器21a为具有多个像素的要素的权重,各个权重中可包括偏移量。池化层122对来自卷积层121的图像数据进行降低分辨率的池化操作,生成特征图。多层神经网络结构123包括输入层231、一个或多个隐藏层232以及输出层233。输入层231被最后一个池化层122输入特征图。隐藏层232采用权重进行乘积加总运算。输出层233输出CNN处理的最终结果。卷积层121中的过滤器21a的权重、隐藏层232中的权重是神经网络用参数,需要事先进行学习。这里的学习是指为了让CNN在被输入识别对象的图像数据时返回理想的输出而更新参数使其最佳化。具体而言,反复进行参数的更新,以使得规定的目的函数收敛到最小值。目的函数本文档来自技高网
...
学习系统与学习方法

【技术保护点】
1.一种学习系统,具有多个微分值计算部与参数更新部,对神经网络用参数进行更新,其中,所述多个微分值计算部互不进行同步地执行下列动作:从所述参数更新部接收某个时间点的参数;根据所接收到的参数计算出用于更新所述参数的微分值;以及将所述微分值发送给所述参数更新部,所述参数更新部执行下列动作:从所述微分值计算部接收所述微分值;与所述多个微分值计算部的微分值计算不进行同步地根据所接收到的所述微分值更新所述参数;以及将更新后的所述参数发送给所述多个微分值计算部,所述微分值计算部在计算所述微分值时,考虑与更新次数对应的过时而计算所述微分值,所述更新次数为从所述参数的接收时间点开始到所计算的微分值被所述参数更新部用来更新所述参数为止的期间内,所述参数被更新的次数。

【技术特征摘要】
2016.12.27 JP 2016-2531691.一种学习系统,具有多个微分值计算部与参数更新部,对神经网络用参数进行更新,其中,所述多个微分值计算部互不进行同步地执行下列动作:从所述参数更新部接收某个时间点的参数;根据所接收到的参数计算出用于更新所述参数的微分值;以及将所述微分值发送给所述参数更新部,所述参数更新部执行下列动作:从所述微分值计算部接收所述微分值;与所述多个微分值计算部的微分值计算不进行同步地根据所接收到的所述微分值更新所述参数;以及将更新后的所述参数发送给所述多个微分值计算部,所述微分值计算部在计算所述微分值时,考虑与更新次数对应的过时而计算所述微分值,所述更新次数为从所述参数的接收时间点开始到所计算的微分值被所述参数更新部用来更新所述参数为止的期间内,所述参数被更新的次数。2.根据权利要求1所述的学习系统,其中,所述微分值计算部考虑所述过时,计算出在所计算的微分值被所述参数更新部用来更新所述参数时的参数的预测值,对该预测值进行微分而计算出所述微分值。3.根据权利要求2所述的学习系统,其中,所述微分值计算部根据所述某个时间点的参数、所述某个时间点之前的时间点的参数、及所述过时,计算出所述预测值。4.根据权利要求3所述的学习系统,其中,设所述某个时间点τ的参数为W(τ),所述某...

【专利技术属性】
技术研发人员:佐藤育郎藤崎亮野村哲弘大山洋介松冈聪
申请(专利权)人:电装IT研究所国立大学法人东京工业大学
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1