一种基于Airflow的模型训练调度方法及装置制造方法及图纸

技术编号:31583685 阅读:15 留言:0更新日期:2021-12-25 11:28
本发明专利技术公开了一种基于Airflow的模型训练调度方法及装置,其中该方法包括:确定多个模型训练任务;确定多个服务器节点任务;确定每一所述服务器节点任务对应的子级工作流;每一所述子级工作流中均包括有同一个模型调度函数;所述模型调度函数用于在所述子级工作流存在处理空闲时,为所述子级工作流从所述多个模型训练任务中确定出当前可进行的目标模型训练任务,并根据所述目标模型训练任务为所述子级工作流生成对应的训练节点任务;执行所有所述服务器节点任务对应的子级工作流以完成所述多个模型训练任务。可见,本发明专利技术能够在任一工作流存在处理空闲时为其分配模型训练任务,有利于充分利用算法资源,提高模型调度的灵活性。性。性。

【技术实现步骤摘要】
一种基于Airflow的模型训练调度方法及装置


[0001]本专利技术涉及智能物流
,尤其涉及一种基于Airflow的模型训练调度方法及装置。

技术介绍

[0002]Airflow是一个基于Python语言的数据处理任务调度和监控工作流的平台,可以用于支撑算法模型的前置离线数据处理等任务。同时,模型训练任务的调度方案也可以基于Airflow实现。现有的技术中在利用Airflow进行多个模型任务训练调度时,常常使用数据并行的方式进行调度。对于服务器集群来说,数据并行需要提前指定好哪些模型任务在哪台服务器上排队,这种方式需要提前设计,且一个队列跑完不能自动分配其他队列的剩余模型,从调度整体上看不够灵活,且无法根据服务器空闲程度灵活动态分配模型,从而无法充分利用算力资源。可见,现有技术存在缺陷,亟待解决。

技术实现思路

[0003]本专利技术所要解决的技术问题在于,提供一种基于Airflow的模型训练调度方法及装置,能够在任一工作流存在处理空闲时为其分配模型训练任务,进而在模型调度中实现了模型并行,有利于充分利用算法资源,提高模型调度的灵活性。
[0004]为了解决上述技术问题,本专利技术第一方面公开了一种基于Airflow的模型训练调度方法,所述方法包括:
[0005]确定多个模型训练任务;
[0006]确定多个服务器节点任务;
[0007]确定每一所述服务器节点任务对应的子级工作流;每一所述子级工作流中均包括有同一个模型调度函数;所述模型调度函数用于在所述子级工作流存在处理空闲时,为所述子级工作流从所述多个模型训练任务中确定出当前可进行的目标模型训练任务,并根据所述目标模型训练任务为所述子级工作流生成对应的训练节点任务;
[0008]执行所有所述服务器节点任务对应的子级工作流以完成所述多个模型训练任务。
[0009]作为一种可选的实施方式,在本专利技术第一方面中,所述确定多个服务器节点任务,包括:
[0010]确定父级工作流以及对应的父级工作流参数;所述父级工作流中包括多个服务器节点任务;所述父级工作流参数中包括父级并行度参数,所述父级并行度参数用于指示所述父级工作流中可以同时执行的节点任务的数量。
[0011]作为一种可选的实施方式,在本专利技术第一方面中,所述确定每一所述服务器节点任务对应的子级工作流,包括:
[0012]确定每一所述服务器节点任务对应的子级工作流以及对应的子级工作流参数;所述子级工作流参数中包括子级并行度参数,所述子级并行度参数用于指示所述子级工作流中可以同时执行的节点任务的数量。
[0013]作为一种可选的实施方式,在本专利技术第一方面中,所述子级工作流中还包括统计节点任务,用于记录所述子级工作流已经执行的所述训练节点任务对应的所述模型训练任务。
[0014]作为一种可选的实施方式,在本专利技术第一方面中,所述确定每一所述服务器节点任务对应的子级工作流以及对应的子级工作流参数,包括:
[0015]确定多个服务器节点对应的预设工作参数;所述预设工作参数包括并行度参数;
[0016]在所述父级工作流中遍历所有所述服务器节点,根据每一所述服务器节点对应的预设工作参数,为每一服务器节点对应的服务器节点任务生成对应的子级工作流和子级工作流参数。
[0017]作为一种可选的实施方式,在本专利技术第一方面中,所述模型调度函数为所述子级工作流从所述多个模型训练任务中确定出当前可进行的目标模型训练任务的具体方式,包括:
[0018]所述模型调度函数获取模型列表;所述模型列表中包括有若干个当前未被执行的所述模型训练任务;
[0019]所述模型调度函数根据预设的选区规则,从所述模型列表中确定出一个目标模型训练任务,并将所述目标模型训练任务从所述模型列表中删除。
[0020]作为一种可选的实施方式,在本专利技术第一方面中,所述父级工作流还包括有多个用于获取对应的所述模型训练任务的获取节点;在所述确定父级工作流以及对应的父级工作流参数之后,所述方法还包括:
[0021]对于所述父级工作流中的每一所述服务器节点任务,将所有所述获取节点确定为该服务器节点任务的上游任务,以建立该服务器节点任务与所有所述获取节点的链接关系。
[0022]作为一种可选的实施方式,在本专利技术第一方面中,所述子级工作流中还包括报错节点任务,用于在所述子级工作流执行所述训练节点任务出错时,生成对应的报错信息并推送至对应的终端。
[0023]本专利技术第二方面公开了一种基于Airflow的模型训练调度装置,其包括:
[0024]第一确定模块,用于确定多个模型训练任务;
[0025]第二确定模块,用于确定多个服务器节点任务;
[0026]第三确定模块,用于确定每一所述服务器节点任务对应的子级工作流;每一所述子级工作流中均包括有同一个模型调度函数;所述模型调度函数用于在所述子级工作流存在处理空闲时,为所述子级工作流从所述多个模型训练任务中确定出当前可进行的目标模型训练任务,并根据所述目标模型训练任务为所述子级工作流生成对应的训练节点任务;
[0027]执行模块,用于执行所有所述服务器节点任务对应的子级工作流以完成所述多个模型训练任务。
[0028]作为一种可选的实施方式,在本专利技术第二方面中,所述第二确定模块确定多个服务器节点任务的具体方式,包括:
[0029]确定父级工作流以及对应的父级工作流参数;所述父级工作流中包括多个服务器节点任务;所述父级工作流参数中包括父级并行度参数,所述父级并行度参数用于指示所述父级工作流中可以同时执行的节点任务的数量。
[0030]作为一种可选的实施方式,在本专利技术第二方面中,所述第三确定模块确定每一所述服务器节点任务对应的子级工作流的具体方式,包括:
[0031]确定每一所述服务器节点任务对应的子级工作流以及对应的子级工作流参数;所述子级工作流参数中包括子级并行度参数,所述子级并行度参数用于指示所述子级工作流中可以同时执行的节点任务的数量。
[0032]作为一种可选的实施方式,在本专利技术第二方面中,所述子级工作流中还包括统计节点任务,用于记录所述子级工作流已经执行的所述训练节点任务对应的所述模型训练任务。
[0033]作为一种可选的实施方式,在本专利技术第二方面中,所述第三确定模块确定每一所述服务器节点任务对应的子级工作流以及对应的子级工作流参数的具体方式,包括:
[0034]确定多个服务器节点对应的预设工作参数;所述预设工作参数包括并行度参数;
[0035]在所述父级工作流中遍历所有所述服务器节点,根据每一所述服务器节点对应的预设工作参数,为每一服务器节点对应的服务器节点任务生成对应的子级工作流和子级工作流参数。
[0036]作为一种可选的实施方式,在本专利技术第二方面中,所述模型调度函数为所述子级工作流从所述多个模型训练任务中确定出当前可进行的目标模型训练任务的具体方式,包括:
[0037]所述模型调度函数获取模型列表本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Airflow的模型训练调度方法,其特征在于,所述方法包括:确定多个模型训练任务;确定多个服务器节点任务;确定每一所述服务器节点任务对应的子级工作流;每一所述子级工作流中均包括有同一个模型调度函数;所述模型调度函数用于在所述子级工作流存在处理空闲时,为所述子级工作流从所述多个模型训练任务中确定出当前可进行的目标模型训练任务,并根据所述目标模型训练任务为所述子级工作流生成对应的训练节点任务;执行所有所述服务器节点任务对应的子级工作流以完成所述多个模型训练任务。2.根据权利要求1所述的基于Airflow的模型训练调度方法,其特征在于,所述确定多个服务器节点任务,包括:确定父级工作流以及对应的父级工作流参数;所述父级工作流中包括多个服务器节点任务;所述父级工作流参数中包括父级并行度参数,所述父级并行度参数用于指示所述父级工作流中可以同时执行的节点任务的数量。3.根据权利要求2所述的基于Airflow的模型训练调度方法,其特征在于,所述确定每一所述服务器节点任务对应的子级工作流,包括:确定每一所述服务器节点任务对应的子级工作流以及对应的子级工作流参数;所述子级工作流参数中包括子级并行度参数,所述子级并行度参数用于指示所述子级工作流中可以同时执行的节点任务的数量。4.根据权利要求1所述的基于Airflow的模型训练调度方法,其特征在于,所述子级工作流中还包括统计节点任务,用于记录所述子级工作流已经执行的所述训练节点任务对应的所述模型训练任务。5.根据权利要求3所述的基于Airflow的模型训练调度方法,其特征在于,所述确定每一所述服务器节点任务对应的子级工作流以及对应的子级工作流参数,包括:确定多个服务器节点对应的预设工作参数;所述预设工作参数包括并行度参数;在所述父级工作流中遍历所有所述服务器节点,根据每一所述服务器节点对应的预设工作参数,为每一服务器节点对应的服务器节点任务生成对应的子级工作流和子级工作流参数。6.根据权利要求3所述的基于Airflow的模型训练调度方法,其特征在于,所述...

【专利技术属性】
技术研发人员:阚向阳杨经海
申请(专利权)人:深圳云路信息科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1