使用选择性权重更新训练神经网络制造技术

技术编号：26531826 阅读：43 留言：0更新日期：2020-12-01 14:13

公开了使用选择性权重更新训练神经网络。使用对一个或更多个神经网络的权重信息的选择性更新来训练一个或更多个神经网络。在至少一个实施例中，通过至少部分地基于指示权重信息的一个或更多个部分最近被更新的元数据至少更新一个或更多个神经网络的权重信息的一个或更多个部分，来训练一个或更多个神经网络。

全部详细技术资料下载

【技术实现步骤摘要】
使用选择性权重更新训练神经网络
处理器包括一个或更多个算术逻辑单元(ALU)，用于使用神经网络执行训练和/或推理。在至少一个实施例中，一个或更多个神经网络使用选择性权重更新来训练。
技术介绍
前馈人工神经网络在其输入和输出之间使用非线性“隐藏”单元的层。单元具有作为训练神经网络的一部分而被学习的权重信息。在训练期间，输入数据通过神经网络前向传播以生成输出数据。梯度下降可用于最小化计算误差和更新权重信息。更新神经网络的权重信息可以是计算上需求的，并且可成为计算机系统中影响神经网络如何训练的性能瓶颈。附图说明参照附图将描述不同的技术，其中：图1示出了根据至少一个实施例的用于训练神经网络的选择性权重更新的图；图2示出了根据至少一个实施例的在其中可以一起计算非梯度项的多个更新的图；图3示出了根据至少一个实施例的训练步(批)的迭代的图。图4示出了根据至少一个实施例的前向触发的权重更新的初始状态的图；图5示出了根据至少一个实施例的前向触发的权重更新的状态的图；图6示...

【技术保护点】
1.一种处理器，包括一个或更多个算术逻辑单元(ALU)，用于至少部分地基于与权重信息的一个或更多个部分相关联、用于指示权重信息的所述一个或更多个部分最近已被更新的元数据来更新与一个或更多个神经网络相对应的所述权重信息的一个或更多个部分，其中所述一个或更多个部分小于对应于所述一个或更多个神经网络的所有所述权重信息。/n

【技术特征摘要】
20190531 US 16/428,7601.一种处理器，包括一个或更多个算术逻辑单元(ALU)，用于至少部分地基于与权重信息的一个或更多个部分相关联、用于指示权重信息的所述一个或更多个部分最近已被更新的元数据来更新与一个或更多个神经网络相对应的所述权重信息的一个或更多个部分，其中所述一个或更多个部分小于对应于所述一个或更多个神经网络的所有所述权重信息。

2.根据权利要求1所述的处理器，其中作为确定所述权重信息的所述一个或更多个部分将在所述一个或更多个神经网络的当前训练步中使用的结果，所述一个或更多个ALU用于更新权重信息的所述一个或更多个部分。

3.根据权利要求1所述的处理器，其中权重信息的所述一个或更多个部分至少部分地基于以下项来更新：
所述元数据，其用于指示所述权重信息的所述一个或更多个部分最近已被更新；
动量信息，其用于指示如何更新所述权重信息的所述一个或更多个部分；
学习速率；和
动量系数。

4.根据权利要求3所述的处理器，其中所述学习速率和所述动量系数是超参数。

5.根据权利要求1所述的处理器，其中所述元数据包括计数器，所述计数器指示从权重信息的所述一个或更多个部分最后被更新已经经过多少个训练步。

6.根据权利要求1所述的处理器，其中权重信息的所述一个或更多个部分与嵌入向量相关联。

7.根据权利要求3所述的处理器，其中至少部分地基于用于更新所述权重信息的所述一个或更多个部分的所述动量信息和所述元数据来计算累积更新。

8.一种系统，包括：一个或更多个存储器，用于存储用于指示要反向传播到一个或更多个神经网络的权重信息的一个或更多个部分最近已被更新的元数据，其中所述一个或更多个部分小于要反向传播到所述一个或更多个神经网络的所有所述权重信息。

9.根据权利要求8所述的系统，其中所述一个或更多个存储器包括指令，如果所述指令被执行，则使得所述系统：
加载包括所述权重信息的所述一个或更多个部分的输入数据；
至少部分地基于所述元数据来更新所述权重信息的所述一个或更多个部分；
通过所述一个或更多个神经网络前向传播更新的所述权重信息的一个或更多个部分，以生成一个或更多个输出；
反向传播所述一个或更多个输出，以更新所述一个或更多个神经网络；以及
从所述一个或更多个部分更新所述权重信息的不同部分。

10.根据权利要求8所述的系统，其中所述元数据指示如何更新用于训练所述一个或更多个神经网络的多个嵌入向量。

11.根据权利要求8所述的系统，其中所述一个或更多个存储器用于存储动量信息，其用于指示如何更新所述权重信息的所述一个或更多个部分。

12.根据权利要求8所述的系统，其中在所述一个或更多个神经网络的训练时期之后，所述元数据被更新。

13.根据权利要求12所述的系统，其中所述元数据指示已经跳过了多少个训练时期。

14.根据权利要求8所述的系统，还包括车辆。

15.一种方法，包括：
生成与一个或更多个神经网络相关联的权重信息；和
至少部分地基于所述权重信息的部分最近已被更新来仅更新所述权重信息的所述部分，其中所述部分小于所有所述权重信息。

16.根据权利要求15所述的方法，其中所述权重信息的所述部分要在所述一个或更多个神经网络的训练步中使用。

17.根据权利要求16所述的方法，其中使用随机过程或伪随机过程来选择要在所述一个或更多个神经网络的训练步中使用的所述权重信息的所述部分。

18.根据权利要求15所述的方法，进一步包括存储用于指示所述权重信息的所述部分最近已被更新的元数据。

19.根据权利要求15所述的方法，其中通过至少部分地基于地面实况数据和所述一个或更多个神经网络的输出数据至少计算梯度来生成所述权重信息。

20.根据权利要求15所述的方法，其中所述权重信息的所述部分作为第一训练步的一部分被更新，并且所述权重信息的不同部分作为第二训练步的一部分被更新。

21.根据权利要求20所述的方法，其中所述不同部分与所述权重信息的所述部分部分地重叠。

22.根据权利要求18所述的方法，进一步包括至少部分地基于所述元数据来计算两个或更多个训练步的累积更新，用于更新所述权重信息的所述部分。

23.一种处理器，包括一个...

【专利技术属性】
技术研发人员：C·卡塞，吴昊，
申请(专利权)人：辉达公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人