利用自适应梯度裁剪的神经网络制造技术

技术编号：39063647 阅读：15 留言：0更新日期：2023-10-12 19:56

公开了一种用于训练神经网络的计算机实现的方法。该方法包括确定与神经网络的参数相关联的梯度。该方法还包括确定梯度范数与参数范数的比率，并将该比率与阈值进行比较。响应于确定该比率超过阈值，减小梯度的值，使得该比率等于或低于阈值。基于减小的梯度值来更新参数的值。参数的值。参数的值。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】利用自适应梯度裁剪的神经网络

[0001]本说明书涉及用于使用自适应梯度裁剪技术(adaptive gradient clipping technique)训练神经网络的系统和方法。

技术介绍

[0002]神经网络是采用一层或多层非线性单元来预测接收的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收的输入生成输出。
[0003]一些神经网络是循环(recurrent)神经网络。循环神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地，循环神经网络可以在计算当前时间步的输出时使用来自先前时间步的网络的内部状态中的一些或全部。循环神经网络的示例是长短期记忆(LSTM)神经网络，其包括一个或多个LSTM记忆块。每个LSTM记忆块可以包括一个或多个单元，每个单元包括输入门、遗忘门和输出门，其允许单元存储单元的先前状态，例如，用于在生成当前激活时使用或提供给LSTM神经网络的其他组件。

技术实现思路

[0004]本说明书总体上描述了实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统如何可以执行训练神经网络(即，调整神经网络的参数)的方法。
[0005]在一个方面，提供了一种用于训练神经网络的计算机实现的方法，包括确定与神经网络的参数相关联的梯度。确定梯度范数与参数范数的比率并将其与阈值进行比较。响应于确定该比率超过阈值，减小梯度的值，使...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于训练神经网络的计算机实现的方法，包括：确定与所述神经网络的参数相关联的梯度；确定梯度范数与参数范数的比率；将所述比率与阈值进行比较；响应于确定所述比率超过所述阈值，减小所述梯度的值，使得所述比率等于或低于所述阈值；以及基于减小的梯度值来更新所述参数的值。2.根据权利要求1所述的方法，还包括：响应于确定所述比率低于所述阈值，维持所述梯度的值并且基于维持的梯度值来更新所述参数的值。3.根据任一前述权利要求所述的方法，其中，减小所述梯度的值包括将所述梯度的值乘以基于所述阈值的比例因子以减小所述梯度的值。4.根据任一前述权利要求所述的方法，其中，减小所述梯度的值包括将所述梯度的值乘以基于所述比率的比例因子以减小所述梯度的值。5.根据任一前述权利要求所述的方法，包括基于与所述神经网络的一个神经元相关联的参数来确定所述梯度范数和所述参数范数。6.根据权利要求5所述的方法，其中，所述神经网络的参数是连接到所述神经网络的所述神经元的权重，所述方法包括基于与连接到所述神经元的每个相应权重相关联的梯度来确定所述梯度范数，以及基于连接到所述神经元的每个相应权重的权重值来确定所述参数范数。7.根据权利要求6所述的方法，还包括将所述梯度范数计算为与连接到所述神经元的相应权重相关联的梯度上的Frobenius范数，并且将所述参数范数计算为连接到所述神经元的相应权重上的Frobenius范数。8.根据任一前述权利要求所述的方法，其中，减小所述梯度的值基于以下方程式：如果则其中，W
l
是第l层的权重矩阵，i是第l层中的神经元的索引，是对应于参数的梯度，λ是标量阈值，并且||.||
F
是Frobenius范数。9.根据任一前述权利要求所述的方法，其中，所述神经网络包括残差块，并且其中，所述残差块是无归一化层的。10.根据任一前述权利要求所述的方法，其中，所述神经网络是包括四级骨干的深度残差神经网络。11.根据权利要求10所述的方法，其中，所述骨...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人