【技术实现步骤摘要】
模型训练方法、装置以及电子设备
本公开涉及计算机
中的深度学习技术,尤其涉及一种模型训练方法、装置以及电子设备。
技术介绍
深度学习发展迅速,模型的参数量越来越大,训练模型的计算量也非常大,大型模型使用单个处理器,例如图形处理器(GraphicsProcessingUnit,GPU)进行训练需要耗时数天甚至数周,严重影响业务算法的快速迭代,分布式训练可以使用多处理器同时对模型进行训练,可提升训练速度,但是分布式训练中,多个处理器之间交互频次高,对通信性能要求较高。
技术实现思路
本公开提供了一种模型训练方法、装置以及电子设备。根据本公开的第一方面,提供了一种模型训练方法,应用于第一电子设备,所述第一电子设备包括第一处理器,包括:向第二电子设备发送梯度数量;接收所述第二电子设备基于所述梯度数量发送的第一融合梯度;根据所述第一融合梯度与第二融合梯度,获得目标融合梯度,其中,所述第二融合梯度根据从所述第一处理器对应的梯度队列中取出的N个梯度进行融合获得,N为所述梯度数量;< ...
【技术保护点】
1.一种模型训练方法,应用于第一电子设备,所述第一电子设备包括第一处理器,所述方法包括:/n向第二电子设备发送梯度数量;/n接收所述第二电子设备基于所述梯度数量发送的第一融合梯度;/n根据所述第一融合梯度与第二融合梯度,获得目标融合梯度,其中,所述第二融合梯度根据从所述第一处理器对应的梯度队列中取出的N个梯度进行融合获得,N为所述梯度数量;/n向所述第二电子设备发送所述目标融合梯度;/n根据所述目标融合梯度,对所述第一电子设备的学习模型的参数进行更新。/n
【技术特征摘要】
1.一种模型训练方法,应用于第一电子设备,所述第一电子设备包括第一处理器,所述方法包括:
向第二电子设备发送梯度数量;
接收所述第二电子设备基于所述梯度数量发送的第一融合梯度;
根据所述第一融合梯度与第二融合梯度,获得目标融合梯度,其中,所述第二融合梯度根据从所述第一处理器对应的梯度队列中取出的N个梯度进行融合获得,N为所述梯度数量;
向所述第二电子设备发送所述目标融合梯度;
根据所述目标融合梯度,对所述第一电子设备的学习模型的参数进行更新。
2.根据权利要求1所述的方法,其中,在所述向第二电子设备发送梯度数量之后,在所述根据所述第一融合梯度与第二融合梯度,获得目标融合梯度之前,还包括:
从所述第一处理器对应的梯度队列中取出N个梯度;
获取所述N个梯度取出顺序中的前M个梯度,其中,所述前M个梯度的字节数之和不大于第一融合阈值,M为不大于N的正整数;
将所述前M个梯度进行融合,获得所述第二融合梯度。
3.根据权利要求2所述的方法,其中,所述将所述前M个梯度进行融合,获得所述第二融合梯度,包括:
若所述前M个梯度中第一梯度的数据类型的精度与预设精度不同,则对所述第一梯度进行精度转换,获得数据类型的精度与所述预设精度相同的新的第一梯度;
将进行精度转换后的前M个梯度进行融合,获得所述第二融合梯度。
4.根据权利要求2所述的方法,其中,所述根据所述目标融合梯度,对所述第一电子设备的学习模型的参数进行更新,包括:
根据梯度融合信息,对所述目标融合梯度进行拆分,获得M个第二梯度,所述梯度融合信息包括参与梯度融合的数量M,以及所述前M个梯度中各梯度的维度;
利用所述M个第二梯度对所述第一电子设备的学习模型的参数进行更新。
5.根据权利要求2所述的方法,其中,所述向第二电子设备发送梯度数量,包括:
每隔第一预设通信间隔时间,查询所述第一处理器对应的梯度队列中的梯度的数量,获得梯度数量;
向所述第二电子设备发送所述梯度数量。
6.根据权利要求5所述的方法,其中,在所述根据所述目标融合梯度,对所述第一电子设备的学习模型的参数进行更新之后,还包括:
根据第一预设时间段内所述第一电子设备与所述第二电子设备之间的第一通信字节数,确定所述第一预设通信间隔时间和第一融合阈值对应的第一评分;
对所述第一预设通信间隔时间和第一融合阈值进行调整,获得第二预设通信间隔时间和第二融合阈值;
采用所述第二预设通信间隔时间和所述第二融合阈值,对所述第一电子设备的学习模型的参数进行更新;
根据第二预设时间段内所述第一电子设备与所述第二电子设备之间的第二通信字节数,确定所述第二预设通信间隔时间和第二融合阈值对应的第二评分;
根据所述第一评分和第二评分,从所述第一预设通信间隔时间和所述第二预设通信间隔时间中确定目标通信间隔时间,以及从所述第一融合阈值和所述第二融合阈值中确定目标融合阈值;
利用所述目标通信间隔时间和所述目标融合阈值,对所述第一电子设备的学习模型的参数进行更新,获得目标模型。
7.一种模型训练方法,应用于第二电子设备,所述第二电子设备包括第二处理器,所述方法包括:
接收第一电子设备发送的梯度数量;
向所述第一电子设备发送第一融合梯度,所述第一融合梯度根据从所述第二处理器对应的梯度队列中取出的N个梯度融合获得,N为所述梯度数量;
接收所述第一电子设备发送的目标融合梯度;
根据所述目标融合梯度,对所述第二电子设备的学习模型的参数进行更新。
8.根据权利要求7所述的方法,其中,在所述接收第一电子设备发送的梯度数量之后,在所述向所述第一电子设备发送第一融合梯度之前,还包括:
从所述第二处理器对应的梯度队列中取出N个梯度;
获取N个梯度取出顺序中的前M个梯度,其中,所述前M个梯度的字节数之和不大于第一融合阈值,M为不大于N的正整数;
将所述前M个梯度进行融合,获得所述第一融合梯度。
9.根据权利要求8所述的方法,其中,所述将所述前M个梯度进行融合,获得所述第一融合梯度,包括:
若所述前M个梯度中第一梯度的数据类型的精度与预设精度不同,则对所述第一梯度进行精度转换,获得数据类型的精度与所述预设精度相同的新的第一梯度;
将进行精度转换后的前M个梯度进行融合,获得所述第一融合梯度。
10.根据权利要求8所述的方法,其中,所述根据所述目标融合梯度,对所述第二电子设备的学习模型的参数进行更新,包括:
根据梯度融合信息,对所述目标融合梯度进行拆分,获得M个第二梯度,所述梯度融合信息包括参与梯度融合的数量M,以及所述前M个梯度中各梯度的维度;
利用所述M个第二梯度对所述第二电子设备的学习模型的参数进行更新。
11.一种模型训练装置,应用于第一电子设备,所述第一电子设备包括第一处理器,所述装置包括:
第一发送模块,用于向第二电子设备发送梯度数量;
接收模块,用于接收所述第二电子设备基于所述梯度数量发送的第一融合梯度;
第一获取模块,用于根据所述第一融合梯度与第二融合梯度,获得目标融合梯度,其中,所述第二融合梯...
【专利技术属性】
技术研发人员:孟凯,骆宝童,李盼盼,李振国,张恒华,胡在斌,黄凯文,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。