神经网络中基于权重的调制制造技术

技术编号:38463806 阅读:14 留言:0更新日期:2023-08-11 14:40
本文描述了训练包括节点和节点中的选定节点之间的加权连接的神经网络。在训练期间期望激活值和当前激活值的函数产生用于调整连接的权重值的反馈信号。对于权重值更新周期,该过程基于连接的当前权重值确定各个节点的重要性值,并且通过从针对连接的反馈信号导出的梯度值与所确定的调整矩阵的对应元素的组合来确定特定于连接的每个权重值的反馈信号的调整。更新在更新周期期间被应用于连接。更新在更新周期期间被应用于连接。更新在更新周期期间被应用于连接。

【技术实现步骤摘要】
【国外来华专利技术】神经网络中基于权重的调制

技术介绍

[0001]本专利技术总体涉及用于训练神经网络的计算机实现的方法,并且更具体地,涉及包括节点和选定节点之间的加权连接的神经网络。
[0002]在研究团体以及企业IT(信息技术)组织中,AI(人工智能)和机器学习目前正成为主流技术的前缘。几种方法已经作为用于机器学习的有效工具被应用。对于某类问题,人工神经网络(ANN)或深度神经网络(DNN)可以很好地适合作为支持人工智能应用的技术架构。
[0003]神经网络在它们可以用于推理任务(例如分类或预测)之前需要训练,训练可以是监督的、半监督的或无监督的。通常,当今使用监督学习技术,其可能需要多个带注释的训练数据。在训练期间,基于输入数据,神经网络产生一个或多个输出信号,该输出信号可以与期望的结果,即注释进行比较。这两者之间的函数可以用于调整神经网络的不同层的节点之间的连接或边的权重因子值。
[0004]反向传播是当前在各种任务中训练深度神经网络最常使用的算法。已经开发了不同的技术来解决反向传播(BP)的权重传送和对称性问题。其中有:反馈对准(FA)、直接和间接反馈对准(DFA,IFA)。
[0005]为了使损失函数最小化,BP、FA、DFA和IFA依赖于随机梯度下降(SGD)和其它优化器的方法。基本上,SGD可以将学习到的组合的一组权重值引向变体空间内的全局或局部最小值。因此,SGD收敛强烈地依赖于学习速率(η)。学习速率调度方法可以改善收敛,但是也可能需要耗时的手动调谐和自适应超参数,并且在每个步骤,它保持学习速率对于所有参数都相等。
[0006]诸如基于动量的优化器的一些优化器可执行不同构的更新,但也可能需要将动量估计存储在存储器中,即,底层计算机系统的主存储器中。这可能是这种方法的较高计算成本的原因。
[0007]因此,为提高收敛速度而引入的传统SGD的现有修改不利地需要超参数的手动调整或额外的存储器。
[0008]用于图像检索或图像分类的参数训练是已知的。使用模型参数对目标函数执行迭代计算是已知的,其中目标函数是用于图像训练的代价函数。
[0009]深度学习架构的增加的复杂性可能导致越来越长的训练时间,由于“消失的梯度”,这需要数周或甚至数月。如下训练深度神经网络是已知的:使用特定于每层和网络并且适应于函数的曲率的学习速率,在低曲率点处增加学习速率。

技术实现思路

[0010]在本专利技术的一个方面,一种用于训练神经网络的方法、计算机程序产品和系统包括:(i)基于神经网络的节点集合中的选定节点之间的加权连接的对应权重值,确定针对节点集合的重要性值集合;(ii)确定包括连接值的调整矩阵,该连接值取决于节点集合的所确定的重要性值;(iii)通过从针对第一加权连接的反馈信号导出的梯度值与调整矩阵的对应元素的组合来确定针对第一加权连接的第一权重值的第一更新值,反馈信号表示在第
一训练周期期间第一加权连接的期望激活值(activity)和当前激活值的函数;以及(iv)根据包括第一更新值的调整矩阵,对包括第一加权连接的加权连接应用更新。
[0011]根据本专利技术的一个方面,提供了一种用于训练神经网络的计算机实现的方法,该神经网络可以包括节点和节点中的选定节点之间的加权连接。因此,训练期间的期望激活值和当前激活值的函数产生反馈信号,该反馈信号可以用于针对每个权重值更新周期调整连接的权重值。
[0012]该方法可以包括:对于每个更新周期,基于连接的当前权重值确定针对每个节点的重要性值,以及确定包括取决于所确定的重要性值的值的调整矩阵。此外,该方法可以包括:对于每个更新周期,通过从针对连接的反馈信号导出的梯度值与所确定的调整矩阵的对应元素的组合来确定特定于连接的每个权重值的局部更新值,以及在每个更新周期期间将更新应用于连接。
[0013]根据本专利技术的另一方面,提供了一种用于训练神经网络的神经网络训练系统,该神经网络可以包括节点和节点中的选定节点之间的加权连接。由此,训练期间的期望激活值和当前激活值的函数产生可以用于调整连接的权重值的反馈信号。
[0014]该系统可以包括存储器和处理器,其中存储器存储程序代码部分,用于使处理器能够在每个更新周期:基于连接的当前权重值确定针对每个节点的重要性值,确定包括取决于所确定的重要性值的值的调整矩阵;通过从针对连接的反馈信号导出的梯度值和所确定的调整矩阵的对应元素的组合来确定特定于连接的每个权重值的局部更新值,并且在每个更新周期期间将更新应用于连接。
附图说明
[0015]应当注意,本专利技术的实施例是参考不同的主题来描述的。特别地,一些实施例是参考方法类型权利要求来描述的,而其他实施例是参考装置类型权利要求来描述的。然而,本领域技术人员将从以上和以下描述中了解到,除非另外指出,除了属于一种类型的主题的特征的任何组合之外,与不同主题相关的特征之间的任何组合,特别是方法类型权利要求的特征与装置类型权利要求的特征之间的任何组合,也被认为是在本文件内公开的。
[0016]从下文将描述的实施例的示例中,本专利技术的上述方面和其它方面是明显的,并且将参考实施例的示例进行解释,但是本专利技术不限于此。
[0017]将仅通过示例的方式并参考以下附图来描述本专利技术的一些实施例:
[0018]图1示出了用于神经网络训练的本专利技术的计算机实现的方法的实施例的框图。
[0019]图2示出了具有多个层的神经网络的实施例的框图。
[0020]图3示出了用于导出特定节点的重要性值的矩阵工具的实施例。
[0021]图4示出了更新值的确定,其也被示出为有助于确定权重更新的下一步骤的矩阵。
[0022]图5示出了基于局部实施例的特定节点的重要性的权重更新确定的步骤。
[0023]图6示出了用于非局部实施例的权重值的更新机制。
[0024]图7示出了本专利技术的神经网络训练系统。
[0025]图8示出了具有根据图7的集成的本专利技术神经网络训练系统的计算系统。
具体实施方式
[0026]本文描述了训练包括节点和节点中的选定节点之间的加权连接的神经网络。训练期间的期望激活值和当前激活值的函数产生用于调整连接的权重值的反馈信号。对于权重值更新周期,该过程基于连接的当前权重值确定针对各个节点的重要性值,并且通过从连接的反馈信号导出的梯度值与所确定的调整矩阵的对应元素的组合来确定特定于连接的每个权重值的反馈信号的调整。在更新周期期间将更新应用于连接。
[0027]本专利技术的一些实施例认识到需要将累积的中间值存储在存储器中的缺点在现有技术中仍然未解决。因此,需要克服当前已知的训练深度神经网络的限制,从而减少训练时间以及所需的存储器量并提高推理准确性。
[0028]在本说明书的上下文中,可以使用以下惯例、术语和/或表达。
[0029]术语“神经网络”(NN)可以表示节点和节点之间的连接的大脑启发的网络,其可以被训练用于与过程编程相对的推理。节点可以按层组织,并且连接可以承载表示节点中的选定节点之间的关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练神经网络的方法,所述方法包括:基于神经网络的节点集合中的选定节点之间的加权连接的对应权重值,确定针对所述节点集合的重要性值集合;确定调整矩阵,所述调整矩阵包括取决于所述节点集合的所确定的所述重要性值的值;通过从针对第一加权连接的反馈信号导出的梯度值与所述调整矩阵的对应元素的组合来确定针对所述第一加权连接的第一权重值的第一更新值,所述反馈信号表示在第一训练周期期间所述第一加权连接的期望激活值和当前激活值的函数;以及根据包括所述第一更新值的所述调整矩阵,将更新应用于包括所述第一加权连接的所述加权连接。2.根据权利要求1所述的方法,其中:训练周期与更新周期交替;以及应用更新发生在第一更新周期期间和第一训练周期之后。3.根据权利要求1所述的方法,其中,确定所述重要性值集合包括:构建针对所标识的传入所述节点集合的加权连接的加权值的和。4.根据权利要求3所述的方法,其中在时间步t处针对所述神经网络的层l中的每个节点a的重要性值是层l的具有等于a的突触后神经元的所有权重值的绝对强度的和。5.根据权利要求1所述的方法,其中,确定所述重要性值包括:确定从所述节点集合传出的加权连接的权重值的和。6.根据权利要求5所述的方法,其中在时间步t处针对所述神经网络的层l中的每个节点a的重要性值是层l+1的具有等于a的突触前神经元的所有权重值的绝对强度的和。7.根据权利要求1所述的方法,其中:在时间步t处,所述调整矩阵的第一更新值针对层l中的节点a被确定为:节点a的重要性值与层l中的所有神经元之中的最大重要性值之间的比,;将所述比乘以二以形成积;以及所述积以1为下限。8.根据权利要求7所述的方法,其中,特定于加权连接的一个层中的所述加权连接的每个权重值的所述第一更新值也影响所述神经网络中的所述加权连接的至少一个上游层。9.根据权利要求8所述的方法,还包括:直接应用所述第一更新值以确定其中:是在时间步t处将层l

1中的节点pre(pre)连接到层l中的节点post的权重值。
10.根据权利要求7所述的方法,其中特定于加权连接的一个层中的所述加权连接的每个权重值的所述更新值对于所述神经网络中的所述加权连接的所有上游层是中性的。11.根据权利要求10所述的方法,其中调整特定于每个层中的每个节点的连接的权重值包括:将从所述反馈信号导出的所述梯度值乘以调整因子值12.根据权利要求1所述的方法,其中所述反馈信号是包括以下项的组的成员:a)反向传播,b)反馈对准,c)直接反馈对准,以及d)间接反馈对准。13.根据权利要求1所述的方法,其中,所述训练是通过由选自包括以下项的组的方法执行的:a)随机梯度下降方法,b)Adam优化器方法,c)Nesterov加速梯度方法,以及d)RMSprop方法。14.一种用于训练神经网络的神经网络训练系统,所述神经网络包括节点和所述节点中的选定节点之间的加权连接,其中,在训练期间期望激活值和当前激活值的函数产生用于调整所述连接的权重值的反馈信号,所述系统包括:存储器;以及处理器;其中,所述存储器存储程序代码部分,所述程序代码部分用于使得所述处理器能够在每个更新周期:基于所述连接的当前权重值确...

【专利技术属性】
技术研发人员:G
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1