【技术实现步骤摘要】
模型参数更新方法及装置
本申请涉及人工智能
,具体涉及深度学习
,尤其涉及模型参数更新方法及装置。
技术介绍
目前在深度学习分布式训练中,深度学习模型是部署在多个训练节点上的,全量训练数据是按照训练节点的数量进行划分,为每个训练节点分配多个批次的批次训练数据。针对每个训练节点,采用一个批次的批次训练数据对深度学习模型进行训练后,会计算损失函数,结合损失函数确定深度学习模型中每个参数的梯度值,然后将每个参数的梯度值通信发送给其他训练节点,实现在每个训练节点上,针对每个参数,根据所有训练节点的所述参数的梯度值来对所述参数进行更新。在上述方案中,存在多个训练任务采用相同的通信链路来发送参数梯度值的情况,若一直先传输某个训练任务的参数梯度值,则其他训练任务的参数梯度值的传输就会受影响,降低训练速度,加长训练时间。
技术实现思路
本申请提出一种模型参数更新方法及装置,通过结合批次训练时间对各个参数梯度通信任务的优先级进行调整,从而能够避免其他训练任务的参数梯度通信任务对当前训练任务的参数梯度通信 ...
【技术保护点】
1.一种模型参数更新方法,其特征在于,包括:/n获取模型对待训练的批次训练数据的批次训练时间;/n在所述批次训练时间大于等于预设的时间阈值时,提高所述模型的参数梯度通信任务序列中排序在后的任务的优先级;/n将所述模型中各个参数的梯度,按照参数梯度通信任务的优先级分发到分布式训练系统中的其他训练节点,并结合所述其他训练节点分发的各个参数的梯度,对所述模型进行参数更新。/n
【技术特征摘要】
1.一种模型参数更新方法,其特征在于,包括:
获取模型对待训练的批次训练数据的批次训练时间;
在所述批次训练时间大于等于预设的时间阈值时,提高所述模型的参数梯度通信任务序列中排序在后的任务的优先级;
将所述模型中各个参数的梯度,按照参数梯度通信任务的优先级分发到分布式训练系统中的其他训练节点,并结合所述其他训练节点分发的各个参数的梯度,对所述模型进行参数更新。
2.根据权利要求1所述的方法,其特征在于,所述时间阈值为预设的最小批次训练时间与预设系数的加和;
所述的方法,还包括:
在所述批次训练时间小于所述最小批次训练时间时,将所述批次训练时间确定为更新后的最小批次训练时间。
3.根据权利要求2所述的方法,其特征在于,还包括:
在所述批次训练时间小于所述最小批次训练时间时,对预设的计数值进行加1处理,得到更新后的计数值;所述预设的计数值的初始值为0;
在所述批次训练时间大于等于所述最小批次训练时间,且小于所述时间阈值时,对预设的计数值进行加1处理,得到更新后的计数值。
4.根据权利要求3所述的方法,其特征在于,所述获取模型对待训练的批次训练数据的批次训练时间之前,还包括:
获取所述预设的计数值;
判断所述计数值是否大于预设的计数阈值;
在所述计数值大于预设的计数阈值时,降低所述参数梯度通信任务序列中排序在后的任务的优先级,并对所述计数值进行清零处理。
5.根据权利要求1所述的方法,其特征在于,所述在所述批次训练时间大于等于预设的时间阈值时,提高所述模型的参数梯度通信任务序列中排序在后的任务的优先级,包括:
在所述批次训练时间大于等于预设的时间阈值时,按照预设的优先级调整策略,在所述参数梯度通信任务序列中排序在后的任务中选择待调整任务,以及待调整任务的调整后优先级;
根据所述待调整任务以及对应的调整后优先级,对所述待调整任务进行优先级调整处理。
6.根据权利要求1所述的方法,其特征在于,所述模型的参数梯度通信任务序列的获取方式为,
按照反向传播方向对所述模型中各个层参数的梯度通信任务进行排序,得到参数梯度通信任务序列;
对所述参数梯度通信任务序列中的各个任务进行优先级设置,使得排序在前的任务的优先级小于排序在后的任务的优先级。
7.根据权利要求1所述的方法,其特征在于,所述待训练的批次训练数据,为所述模型的训练数据中未经过训练的批次训练数据,或者,所述训练数据中训练轮次小于预设轮次阈值的批次训练数据。
8.一种模型参数更新装置,其特征在于,包括:
获取模块,用于获取模型对待训练的批次训练数据的批次训练时间;
调整模块,用于在所述批次训练时间大于等于预设的时间阈值时,提高所述模型的参数梯度通信任务序列中排序在后的任务的优先级;
参数更新模块,用于将所述模型中各个参数的梯度,按照参数梯度通信任务的优先级分发到分布式训练系统...
【专利技术属性】
技术研发人员:李龙,王海峰,巩伟宝,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。