基于分布式系统训练模型的方法、设备及程序产品技术方案

技术编号:30828563 阅读:25 留言:0更新日期:2021-11-18 12:34
本公开提供的基于分布式系统训练模型的方法、设备及程序产品,涉及深度学习技术,应用于分布式系统中的任一节点,包括:从发现服务器中获取各节点的进程信息,若进程信息表征存在故障进程,则控制节点的主进程暂停用于执行训练任务的子进程执行训练任务;其中,发现服务器用于存储各节点中用于执行训练任务的进程信息;在确定故障消除后,控制主进程重启用于执行训练任务的子进程,并基于重启后的子进程继续执行训练任务。本公开提供的方案利用节点中的主进程管理用于执行训练任务的子进程,在需要继续执行训练任务时,仅重启子进程,重启后的子进程能够使用主进程占用的资源执行训练任务,从而降低进程重启时间,提高节点计算资源的利用率。算资源的利用率。算资源的利用率。

【技术实现步骤摘要】
基于分布式系统训练模型的方法、设备及程序产品


[0001]本公开涉及人工智能技术中的深度学习技术,尤其涉及一种基于分布式系统训练模型的方法、设备及程序产品。

技术介绍

[0002]目前,人工智能技术越来越成熟,基于人工智能技术训练得到的模型被应用到越来越多的场景中,比如人脸识别、语义识别等。
[0003]在基于人工智能技术训练模型时,需要进行大规模的训练,才能够得到识别结果准确的模型。在训练数据和参数规模增长的过程中,常规的单机训练由于硬件资源的限制渐渐显得捉襟见肘,而分布式训练则成为了广大开发者的必然选择。
[0004]分布式训练是指使用多台机器共同完成训练任务,以提高训练速度。各训练节点可以将训练得到的数据同步到共享存储中。当用于训练任务的任一节点故障时,各节点的任务退出并释放节点的计算资源。当故障恢复后,各节点从共享存储中下载数据,并重新训练任务。
[0005]在重新开始训练的过程中,训练任务在计算资源上重新启动时有冷启动问题,每个计算节点会重新加载数据进行预热,在此阶段会造成计算资源存在一些空闲时段,进而造成节点本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于分布式系统训练模型的方法,所述方法应用于分布式系统中的任一节点,所述方法包括:从发现服务器中获取各节点的进程信息,若所述进程信息表征存在故障进程,则控制所述节点的主进程暂停用于执行训练任务的子进程执行训练任务;其中,所述发现服务器用于存储各节点中用于执行训练任务的进程信息;在确定故障消除后,控制所述主进程重启用于执行所述训练任务的子进程,并基于重启后的子进程继续执行所述训练任务。2.根据权利要求1所述的方法,其中,控制所述主进程重启用于执行所述训练任务的子进程,包括:控制所述节点中的所述主进程基于自身占用的计算资源重启所述子进程。3.根据权利要求1或2所述的方法,其中,所述基于重启后的子进程继续执行所述训练任务,包括:从共享资源中获取暂停执行所述训练任务之前的模型数据;其中,所述共享资源用于存储各节点在训练过程中训练得到的模型数据;根据所述模型数据继续执行所述训练任务。4.根据权利要求1或3任一项所述的方法,在暂停执行训练任务之后,还包括:从所述发现服务器中获取各节点的后续进程信息;根据所述后续进程信息确定故障是否消除。5.根据权利要求4所述的方法,其中,所述根据所述后续进程信息确定故障是否消除,包括:若所述后续进程信息表征故障进程所属的节点被抛弃,则确定所述故障消除。6.根据权利要求5所述的方法,所述基于重启后的子进程继续执行所述训练任务,包括:根据所述后续进程信息确定用于执行训练任务的进程总数量;根据所述进程总数量更新训练参数,并利用重启后的子进程根据更新后的训练参数继续执行所述训练任务。7.根据权利要求4

6任一项所述的方法,其中,所述根据所述后续进程信息确定故障是否消除,包括:若所述后续进程信息表征故障进程所属的节点中的训练任务由新加入节点执行,则确定所述故障消除。8.根据权利要求1

7任一项所述的方法,还包括:接收训练任务,并根据所述训练任务启动用于执行所述训练任务的主进程,以及所述主进程的子进程;其中,每一子进程由节点的每一图形处理器执行;向所述发现服务器发送所述主进程的信息与所述子进程的信息。9.根据权利要求1

8任一项所述的方法,还包括:在训练过程中,控制各子进程向共享资源同步训练得到的模型信息和模型参数。10.一种基于分布式系统训练模型的装置,所述装置应用于分布式系统中的任一节点,所述装置包括:监控单元,用于从发现服务器中获取各节点的进程信息;
暂停训练单元,用于若所述进程信息表征存在故障进程,则控制所述节点的主进程暂停用于执行训练任务的子进程执行训练任务;其中,所述发现服务器用于存储各节点中用于执行训练任务的进程信息;重新训练单元,...

【专利技术属性】
技术研发人员:夏燕明奎志清吴志华于佃海
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1