神经网络的深度并行训练制造技术

技术编号：34083284 阅读：7 留言：0更新日期：2022-07-11 19:23

本发明专利技术涉及用于执行神经网络的深度并行训练的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。方法中的一个包括接收输入序列；并且在处理时间步序列中的每个处理时间步：使用层块堆叠中的第一层块来处理输入项，以生成第一块输出；对于每个后续层块，处理由先前层块在先前处理时间步生成的块输出，以生成当前块输出；计算i)由最后层块生成的输出项中的当前误差，和ii)当前误差的当前梯度；生成最后层块的参数更新；对于不是最后层块的每个特定层块，计算该特定层块的当前梯度并生成参数更新。参数更新。参数更新。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】神经网络的深度并行训练

[0001]本说明书涉及训练神经网络。

技术介绍

[0002]神经网络是采用一层或多层非线性单元来预测接收到的输入的输出的机器学习模型。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层的输入，即，下一隐藏层或输出层。网络的每一层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

[0003]本说明书描述了实现为一个或多个位置的一个或多个计算机上的计算机程序的系统，该系统训练被配置成处理输入序列以生成输出序列的神经网络。具体地，该系统能够执行神经网络的深度并行训练。在本说明书中，如果训练系统在训练期间使用神经网络的相应不同神经网络层并行处理多个不同的网络输入，则该训练系统执行神经网络的深度并行训练。
[0004]该系统能够通过并行执行多个“前向传递”和多个“后向传递”来执行深度并行训练。在本说明书中，神经网络的“前向传递”指的是系统使用神经网络处理网络输入以生成对应于网络输入的网络输出的操作。在本说明书中，神经网络的“后向传递”指的是系统使用神经网络响应于网络输入而生成的网络输出中的误差来更新神经网络参数的操作。
[0005]使用现有技术，当训练包括多个神经网络层的神经网络时，在开始处理输入序列中的后续输入项之前，训练系统通常必须执行对应于输入项的全部前向传递和后向传递。这是因为，对于每个神经网络层，训练系统使用由神经网络层在前向传递期间生成的层输出，以便在后向传递期间更新神经网络层的参数。因此，如果神经网络包括N个...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种训练神经网络的计算机实现的方法，所述神经网络被配置成处理输入序列并生成所述输入序列的网络输出，其中：所述神经网络生成所述输入序列中的多个输入项中的每一个的相应的输出项，并且所述神经网络包括层块堆叠，每个层块包括一个或多个神经网络层，所述层块堆叠包括第一层块和最后层块，其中所述训练包括：接收输入序列，所述输入序列包括在多个输入时间步中的每一个的相应输入项；以及在处理时间步序列中的多个处理时间步的每一个处：使用所述第一层块处理对应于所述处理时间步的输入时间步的输入项，以生成第一块输出；对于不是所述第一层块的每个特定层块，使用所述特定层块处理由所述层块堆叠中的先前层块在所述处理时间步序列中的先前处理时间步生成的块输出，以生成当前块输出，其中由所述最后层块生成的当前块输出是比对应于所述处理时间步的输入时间步更早的输入时间步的输入项的输出项；计算i)由所述最后层块在所述处理时间步生成的输出项中的当前误差，和ii)所述最后层块的当前误差的当前梯度；根据所述输出项中的所述当前误差生成所述最后层块的参数更新；对于不是所述最后层块的每个特定层块，根据i)由所述层块堆叠中的后续层块在所述处理时间步序列中的所述先前处理时间步计算的先前梯度、和ii)由所述层块堆叠中的所述先前层块在所述处理时间步序列中的所述先前处理时间步生成的先前块输出，来计算所述特定层块的所述当前梯度；以及对于不是所述最后层块的每个特定层块，根据由所述层块堆叠中的所述后续层块在所述处理时间步序列中的所述先前处理时间步计算的所述先前梯度，生成所述特定层块的参数更新。2.根据权利要求1所述的方法，进一步包括，在第二处理时间步序列中的多个第二处理时间步的每一个处：使用所述第一层块处理对应于所述第二处理时间步的输入时间步的输入项，以生成第一块输出；以及对于不是所述第一层块的每个特定层块，使用所述特定层块处理由所述层块堆叠中的所述先前层块在所述第二处理时间步序列中的先前第二处理时间步生成的块输出，以生成当前块输出，其中由所述最后层块生成的所述当前块输出是比对应于所述第二处理时间步的输入时间步更早的输入时间步的输入项的输出项；计算i)由所述最后层块在所述第二处理时间步生成的所述输出项中的当前误差，和ii)所述最后层块的当前误差的当前梯度；根据所述输出项中的所述当前误差生成所述最后层块的参数更新；以及对于不是所述最后层块的每个特定层块，其中针对所述特定层块在所述层块堆叠中的所述后续层块在所述第二处理时间步序列中的所述先前第二处理时间步计算了先前梯度：根据i)由所述后续层块在所述先前第二处理时间步计算的所述先前梯度、和ii)由所述层块堆叠中的所述先前层块在所述先前第二处理时间步生成的所述当前块输出，来计算
所述层块堆叠中的所述特定层块的当前梯度；以及根据由所述后续层块在所述先前第二处理时间步计算的所述先前梯度，生成所述层块堆叠中的所述特定层块的参数更新，其中，所述第二处理时间步序列在所述处理时间步序列之前。3.根据权利要求1或2中的任一项所述的方法，进一步包括，在第三处理时间步序列中的多个第三处理时间步中的每一个处：对于i)在所述第三处理时间步序列中的所述先前第三处理时间步生成了先前块输出并且ii)不是所述最后层块的每个特定层块，使用所述层块堆叠中的所述后续层块处理由所述特定层块在所述先前第三处理时间步生成的所述先前块输出，以生成当前块输出，其中由所述最后层块生成的所述当前块输出是比对应于所述第三处理时间步的所述输入时间步更早的输入时间步的输入项的输...

【专利技术属性】
技术研发人员：马特乌什，
申请(专利权)人：渊慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人