【技术实现步骤摘要】
基于分布式通信的神经网络训练方法、装置及存储介质
本公开涉及机器学习
,尤其涉及基于分布式通信的神经网络训练方法、装置及存储介质。
技术介绍
随着信息技术的发展和人工智能的兴起,神经网络在日常生活中的应用日益广泛,神经网络的种类越来越多,复杂度也越来越高,传统的单机训练可能需要数万次迭代数月的时间才能收敛,单机的计算能力已经难以匹配神经网络训练的算力需求;而分布式的训练方法虽然可以通过将训练任务并行分配到多个节点提升算力,但是需要各个节点间的相互通信才能够完成训练,各个节点的通信数据量较大、频率较高又造成了较高的带宽消耗和较长的通信时滞,使得节点间通信的问题成为了神经网络训练提速的瓶颈。
技术实现思路
为了解决上述的至少一个技术问题,本公开提出了一种基于分布式通信的神经网络训练方案。根据本公开的第一方面,提供了基于分布式通信的神经网络训练,其应用于训练节点,包括:训练所述训练节点对应的神经网络,将产生的梯度保存在第一梯度序列;根据所述第一梯度序列和第二梯度序列,得到累计梯度序列;所述第二梯度 ...
【技术保护点】
1.基于分布式通信的神经网络训练方法,其特征在于,应用于训练节点,所述方法包括:/n训练所述训练节点对应的神经网络,将产生的梯度保存在第一梯度序列;/n根据所述第一梯度序列和第二梯度序列,得到累计梯度序列;所述第二梯度序列用于记录尚未参与同步的梯度;/n根据所述累计梯度序列计算得到重要度指标序列;/n获取重要梯度指示序列,根据所述重要梯度指示序列确定所述累计梯度序列中的重要梯度;/n根据所述重要梯度和所述重要度指标序列得到所述训练节点的待同步信息;/n基于所述待同步信息进行训练节点间的同步,得到同步后梯度序列和同步后重要梯度指示序列;/n根据所述同步后梯度序列调整所述神经网 ...
【技术特征摘要】
1.基于分布式通信的神经网络训练方法,其特征在于,应用于训练节点,所述方法包括:
训练所述训练节点对应的神经网络,将产生的梯度保存在第一梯度序列;
根据所述第一梯度序列和第二梯度序列,得到累计梯度序列;所述第二梯度序列用于记录尚未参与同步的梯度;
根据所述累计梯度序列计算得到重要度指标序列;
获取重要梯度指示序列,根据所述重要梯度指示序列确定所述累计梯度序列中的重要梯度;
根据所述重要梯度和所述重要度指标序列得到所述训练节点的待同步信息;
基于所述待同步信息进行训练节点间的同步,得到同步后梯度序列和同步后重要梯度指示序列;
根据所述同步后梯度序列调整所述神经网络的参数,以及将所述同步后重要梯度指示序列作为新的所述重要梯度指示序列。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一梯度序列和第二梯度序列,得到累计梯度序列,包括:
基于预设的分段规则对所述第一梯度序列和所述第二梯度序列分别进行分段,得到第一梯度段序列和第二梯度段序列;其中,若第一梯度段在所述第一梯度段序列中的位置与第二梯度段在所述第二梯度段序列中的位置相同,则所述第一梯度段和所述第二梯度段相对应,并且均对应于相同的神经网络参数;
设置多个并行的计算线程,每个所述计算线程获取至少一个第一梯度段,以及与所述第一梯度段对应的第二梯度段;
每个所述计算线程对于获取到的每个第一梯度段,将所述第一梯度段与对应的第二梯度段进行累加,得到对应的累计梯度段;
根据各个所述计算线程得到的累计梯度段,得到所述累计梯度序列。
3.根据权利要求2所述的方法,其特征在于,所述根据所述累计梯度序列计算得到重要度指标序列,包括:
每个所述计算线程根据得到的所述累计梯度段,计算对应的重要度指标;
根据各个所述计算线程的重要度指标计算结果,得到重要度指标序列。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述重要梯度指示序列确定所述累计梯度序列中的重要梯度,包括:
对于每个所述计算线程计算得到的每个累计梯度段,在所述重要梯度指示序列提取对应的重要梯度指示值;
若所述重要梯度指示值为第一指示值,则将所述累计梯度段中的累计梯度均确定为重要梯度,并将所述累计梯度段提交至所述训练节点的通信缓冲区;所述第一指示值表征所述累计梯度段中的累计梯度均为重要梯度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述重要梯度和所述重要度指标序列得到所述训练节点的待同步信息,包括:
根据所述通信缓冲区中的累计梯度段,得到待同步梯度序列;其中,所述通信缓冲区中的每个累计梯度段中的每个累计梯度在所述待同步梯度序列中的位置均与所述累计梯度在所述累计梯度序列中的位置相同,并且所述待同步序列中的其它位置被设置为预设梯度值;
拼接所述待同步梯度序列和所述重要度指标序列,得到所述待同步信息。
6.根据权利要求2-5中任意一项所述的方法,其特征在于,所述基于所述待同步信息进行训练节点间的同步,得到同步后梯度序列和同步后重要梯度指示序列,包括:
将各个所述训练节点的待同步信息中的待同步梯度序列逐元素相加,得到同步累加梯度序列;
将所述同步累加梯度序列中的每个同步累加梯度除以所述训练节点的总数量,得到所述同步后梯度序列;
将各个所述训练节点的待同步信息中的重要度指标序列逐元素相加,得到累加重要度指标序列;
将所述累加重要度指标序列中的每个累加重要度指标除以所述训练节点的总数量,得到平均重要度指标序列;
计算所述平均重要度指标序列中每个平均重要度指标对应的重要梯度指示值,得到同步后重要梯度指示序列。
7.根据权利要求6中所述的方法,其特征在于,所述计算所述平均重要度指标序列中每个平均重要度指标对应的重要梯度指示值,包括:
按照平均重要度指标降序顺序得到所述平均重要度指标序列中各个平均重要...
【专利技术属性】
技术研发人员:颜子杰,段江飞,孙鹏,张行程,
申请(专利权)人:上海商汤智能科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。