训练方法、训练装置、设备、系统及存储介质制造方法及图纸

技术编号:33536794 阅读:22 留言:0更新日期:2022-05-19 02:19
本公开提供了一种训练方法、训练装置、设备、系统及存储介质,涉及数据处理领域,尤其涉及大数据处理领域。具体实现方案为:分布式训练系统中的第一训练节点在确定满足缓存启动条件的情况下,获取目标待训练数据,其中,所述目标待训练数据为总待训练数据中的部分数据,所述总待训练数据为对所述分布式训练系统所需训练的待训练模型进行异步训练的总数据;所述第一训练节点在确定满足训练条件的情况下,基于所述目标待训练数据对预先存储的所述待训练模型进行异步训练,得到当前训练结果;所述第一训练节点将所述当前训练结果发送至所述分布式训练系统中的第二训练节点。如此,提升了训练效率。升了训练效率。升了训练效率。

【技术实现步骤摘要】
训练方法、训练装置、设备、系统及存储介质


[0001]本公开涉及数据处理
,尤其涉及大数据处理领域。

技术介绍

[0002]分布式训练(Distributed Training)技术是采用多台设备以一定的连接方式进行通信和数据传输,共同完成模型训练的技术。如何利用分布式训练系统来高效完成模型训练,成为当下研究的一个课题。

技术实现思路

[0003]本公开提供了一种训练方法、训练装置、设备、系统及存储介质。
[0004]根据本公开的一方面,提供了一种训练方法,包括:
[0005]分布式训练系统中的第一训练节点在确定满足缓存启动条件的情况下,获取目标待训练数据,其中,所述目标待训练数据为总待训练数据中的部分数据,所述总待训练数据为对所述分布式训练系统所需训练的待训练模型进行异步训练的总数据;
[0006]所述第一训练节点在确定满足训练条件的情况下,基于所述目标待训练数据对预先存储的所述待训练模型进行异步训练,得到当前训练结果;
[0007]所述第一训练节点将所述当前训练结果发送至所述分布式训练系本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种训练方法,包括:分布式训练系统中的第一训练节点在确定满足缓存启动条件的情况下,获取目标待训练数据,其中,所述目标待训练数据为总待训练数据中的部分数据,所述总待训练数据为对所述分布式训练系统所需训练的待训练模型进行异步训练的总数据;所述第一训练节点在确定满足训练条件的情况下,基于所述目标待训练数据对预先存储的所述待训练模型进行异步训练,得到当前训练结果;所述第一训练节点将所述当前训练结果发送至所述分布式训练系统中的第二训练节点。2.根据权利要求1所述的方法,其中,所述分布式训练系统中的第一训练节点在确定满足缓存启动条件的情况下,获取目标待训练数据,包括:分布式训练系统中的第一训练节点在获取到所述分布式训练系统中的第三训练节点的第一训练启动消息的情况下,获取目标待训练数据;其中,所述第一训练启动消息是所述第三训练节点基于第一待训练数据对预先存储的所述待训练模型进行异步训练后所生成的;所述第一待训练数据为所述总待训练数据中的除所述目标待训练数据之外的至少部分数据。3.根据权利要求2所述的方法,还包括:所述第一训练节点接收所述第三训练节点发送的第一训练结果;其中,所述第一训练节点在确定满足训练条件的情况下,基于所述目标待训练数据对预先存储的所述待训练模型进行异步训练,得到当前训练结果,包括:所述第一训练节点在缓存完成所述目标待训练数据的情况下,基于所述第一训练结果更新预先存储的所述待训练模型的参数信息,并在更新完成之后,基于所述目标待训练数据对预先存储的所述待训练模型进行异步训练,得到当前训练结果。4.根据权利要求2或3所述的方法,其中,所述第二训练节点和第三训练节点为同一节点。5.根据权利要求1所述的方法,还包括:所述第一训练节点获取所述分布式训练系统中其他训练节点的历史缓存时间以及历史训练时间;其中,所述历史缓存时间表征所述其他训练节点缓存自身异步训练所需的所述总待训练数据中部分数据的缓存时间;所述历史训练时间表征所述其他训练节点基于自身所缓存的总待训练数据中部分数据进行异步训练所需的训练时间;所述第一训练节点基于获取的所述其他训练节点的历史缓存时间以及历史训练时间,确定针对所述第一训练节点的缓存启动时间;其中,所述分布式训练系统中的第一训练节点在确定满足缓存启动条件的情况下,获取目标待训练数据,包括:所述分布式训练系统中的第一训练节点确定到达所述缓存启动时间的情况下,获取目标待训练数据。6.根据权利要求5所述的方法,其中,所述第一训练节点基于获取的所述其他训练节点的历史缓存时间以及历史训练时间,确定针对所述第一训练节点的缓存启动时间,包括:所述第一训练节点基于获取的所述其他训练节点的历史缓存时间、历史训练时间、以及异步训练所需的数据量特征,确定针对所述第一训练节点的缓存启动时间。
7.根据权利要求1至6任一项所述的方法,还包括:所述第一训练节点确定异步训练所需的数据量特征;其中,所述获取目标待训练数据,包括:获取满足所述数据量特征的目标待训练数据。8.根据权利要求7所述的方法,还包括:所述第一训练节点获取所述分布式训练系统中其他训练节点的历史缓存时间以及历史训练时间;其中,所述历史缓存时间表征所述其他训练节点缓存自身异步训练所需的所述总待训练数据中部分数据的缓存时间;所述历史训练时间表征所述其他训练节点基于自身所缓存的总待训练数据中部分数据进行异步训练所需的训练时间;所述第一训练节点基于获取的所述其他训练节点的历史缓存时间以及历史训练时间,调整所述数据量特征;其中,所述分布式训练系统中的第一训练节点在确定满足缓存启动条件的情况下,获取目标待训练数据,包括:所述分布式训练系统中的第一训练节点在确定满足缓存启动条件的情况下,获取满足调整后的数据量特征的目标待训练数据。9.根据权利要求1至8任一项所述的方法,还包括:所述第一训练节点向所述第二训练节点发送第二训练启动消息;其中,所述第二训练启动消息是所述第一训练节点基于所述目标待训练数据对预先存储的所述待训练模型进行异步训练后所生成的。10.根据权利要求1至9任一项所述的方法,还包括:所述第一训练节点在确定向所述第二训练节点发送所述当前训练结果之后,获取新的目标待训练数据。11.根据权利要求1至10任一项所述的方法,还包括:所述第一训练节点在未接收到所述第二训练节点反馈的缓存启动消息的情况下,将所述当前训练结果发送至所述分布式训练系统中第二训练节点的下一训练节点,以触发所述第二训练节点的下一训练节点进行数据缓存。12.一种训练装置,包括:数据获取单元,用于在确定满足缓存启动条件的情况下,获取目标待训练数据,其中,所述目标待训练数据为总待训练数据中的部分数据,所述总待训练数据为对分布式训练系统所需训练的待训练模型进行异步训练的总数据;模型训练单元,用于在确定满足训练条件的情况下,基于所述目...

【专利技术属性】
技术研发人员:汤伟董大祥徐龙腾敬清贺杨博叶柏威
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1