【技术实现步骤摘要】
本公开涉及人工智能的数据处理,具体地,涉及一种人工智能芯片上的神经网络的前向插分训练方法、计算装置、设备和介质。
技术介绍
1、在人工智能领域,神经网络的训练过程至关重要。而神经网络的训练对执行该过程的芯片或集群的硬件计算能力和存储空间要求非常高。一般地实现方式中,通常按照反向传播算法(back propagation)来进行梯度回传,从而对神经网络的模型参数进行训练,以使得神经网络的输出趋近于训练目标。经过训练的神经网络能有效应用于诸如图像处理、机器翻译等应用领域。反向传播算法中需要使用自动微分(auto-differentiation)对目标损失函数进行反向传播来获得每一层网络模型的权重参数的梯度,从而更新其权重参数。使用自动微分的反向传播算法对内存量具有较高要求,以用于存储中间变量和优化器状态,此外,还对硬件的计算能力具有较高要求,以实现大量的自动微分计算,这限制了神经网络的训练过程,尤其不利于大型网络模型的训练。
2、相对于反向传播训练方法,前向插分训练方法能够突破以上关于内存和硬件的限制。具体的,前向插分训练方法使
...【技术保护点】
1.一种神经网络的前向插分训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述符合拉德马赫分布的随机数是按照如下步骤生成的:
3.根据权利要求2所述的方法,其特征在于,所述生成所述伪随机二进制序列包括:
4.根据权利要求1所述的方法,其特征在于,所述神经网络为包括N层网络的神经网络模型,针对所述N层网络中的第i层网络,所述利用符合拉德马赫分布的随机数、所述神经网络的训练输入和训练标签,计算用于对所述神经网络的参数进行训练的梯度标量包括:
5.根据权利要求1所述的方法,其特征在于,所述神经网
...【技术特征摘要】
1.一种神经网络的前向插分训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述符合拉德马赫分布的随机数是按照如下步骤生成的:
3.根据权利要求2所述的方法,其特征在于,所述生成所述伪随机二进制序列包括:
4.根据权利要求1所述的方法,其特征在于,所述神经网络为包括n层网络的神经网络模型,针对所述n层网络中的第i层网络,所述利用符合拉德马赫分布的随机数、所述神经网络的训练输入和训练标签,计算用于对所述神经网络的参数进行训练的梯度标量包括:
5.根据权利要求1所述的方法,其特征在于,所述神经网络为包括n层网络的神经网络模型,针对所述n层网络中的第i层网络,所述利用符合拉德马赫分布的随机数、所述神经网络的训练输入和训练标签,计算用于对所述神经网络的参数进行训练的梯度标量包括:
6.根据权利要求5所述的方法,其特征在于,所述利用所述梯度标量对所述神经网络的参数进行前向插分训练包括:
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
8.一种计算装置,其特征在于,所述计算装置包括:
9...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海壁仞科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。