面向分布式机器学习系统的任务平台连续运行调度方法技术方案

技术编号:38481740 阅读:11 留言:0更新日期:2023-08-15 16:59
本发明专利技术提供了一种面向分布式机器学习系统的任务平台连续运行调度方法,属于分布式机器学习技术领域,其中方法包括基于任务平台解析高优先级任务,且结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析,确定最快满足高优先级需求的第一节点,并向所述第一节点发送调度指令,将所述高优先级任务加入至对应第一节点的第一等待队列;基于任务平台解析低优先级任务,并确定剩余未被占用的节点和节点未被占用的资源是否满足所述低优先级任务的需求,若否,则将所述低优先级任务加入至所述机器学习系统的第二等待队列,有效保证了所述机器学习系统中节点的资源利用率。的资源利用率。的资源利用率。

【技术实现步骤摘要】
面向分布式机器学习系统的任务平台连续运行调度方法


[0001]本专利技术涉及分布式机器学习
,特别涉及一种面向分布式机器学习系统的任务平台连续运行调度方法。

技术介绍

[0002]目前,在大数据的环境下,大规模的机器学习的训练对计算能力提出了新的要求,由于计算复杂度高或训练数据太多导致单机训练可能会消耗无法接受的时长,对于以上情况,可以采用分布式机器学习来减少训练的市场。目前,在分布式机器学习的连续运行的过程中,极易出现资源空闲的情况,极大的降低了节点的资源利用率。
[0003]为了提高节点的资源利用率,有必要设计一种面向分布式机器学习系统的任务平台连续运行调度方法,以解决上述问题。

技术实现思路

[0004]本专利技术提供一种面向分布式机器学习系统的任务平台连续运行调度方法,用以根据机器学习系统汇总工作节点的资源占用情况以及执行任务的信息,对高低优先级的任务进行依次安排,使节点资源的空闲时间减少,保障了节点资源的利用,极大提高了节点的资源利用率。
[0005]本专利技术提供一种面向分布式机器学习系统的任务平台连续运行调度方法,包括:步骤1:基于任务平台获取机器学习系统的所有工作节点以及对应节点的当前资源占用情况;步骤2:对所有工作节点的当下占用任务进行分析,确定每个占用任务结束时间;步骤3:基于任务平台解析高优先级任务,确定所需节点以及每个所需节点的实际资源,且结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析,确定最快满足高优先级需求的第一节点,并向所述第一节点发送调度指令,将所述高优先级任务加入至对应第一节点的第一等待队列;步骤4:基于任务平台解析低优先级任务,确定所需节点以及每个所需节点的所需资源,并确定剩余未被占用的节点和节点未被占用的资源是否满足所述低优先级任务的需求,若否,则将所述低优先级任务加入至所述机器学习系统的第二等待队列。
[0006]优选地,所述当前资源占用情况,包括:同个工作节点已被占用资源、空闲资源以及节点总资源。
[0007]优选地,对所有工作节点的当下占用任务进行分析,确定每个占用任务结束时间,包括:根据每个工作节点下对应占用任务的任务类型,确定得到占用任务的理想执行时间;统计与占用任务所对应的工作节点在对应占用任务开始调用的第一时间点到当下时间点之间的实际调用次数,其中,所述实际调用次数为依赖对应占用任务所实现的调
用次数;根据所述实际调用次数的实际调用量与理想调用量的差值,对理想执行时间进行优化,得到占用任务结束时间,其中,所述优化包括理想执行时间提前或延迟。
[0008]优选地,对所有工作节点的当下占用任务进行分析,确定每个占用任务结束时间之后,包括:当所述任务平台捕捉到新任务时,判断所述新任务是否存在预设优先级,若不存在,则对所述新任务的最迟规定运行时间进行分析,确定所述新任务的优先级级别。
[0009]优选地,基于任务平台解析高优先级任务,确定所需节点以及每个所需节点的实际资源,包括:分析所述高优先级任务,确定所需节点类型、不同节点类型的节点数量以及每个所需节点的理想资源;从历史数据库中获取与所述高优先级任务一致的资源调用集合,并获取得到每个所需节点的最大历史资源;估算同个所需节点的最大历史资源与理想资源的第一比值:;其中,为对应所需节点的最大历史资源,为对应所需节点的理想资源;根据所述第一比值,确定对应所需节点的第二比值:;根据同个所需节点的理想资源以及所述第二比值,确定对应节点的实际资源:;其中,n为对应节点的实际资源。
[0010]优选地,结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析,确定最快满足高优先级需求的第一节点,包括:获取与所述高优先级任务所一致的每个所需节点中当下每个占用任务距离对应结束时间的时间差;根据时间差,对所有所需节点中的任务执行完成时间由小到大进行排序,并对首位节点的可用资源进行分析,确定是否满足所述高优先级需求,其中,所述可用资源指的是所述首位节点执行完距离对应结束时间最近的任务后所余出的空闲资源;若不满足,继续对下一位节点的可用资源进行分析。
[0011]优选地,向所述第一节点发送调度指令,将所述高优先级任务加入至对应第一节点的第一等待队列,包括:当所述第一节点的第一等待队列为空时,将所述高优先级任务添加至对应的等待队列首位,并等待执行;当所述第一节点的第一等待队列为多个时,对所述高优先级任务进行分析,确定所述高优先级任务的最迟运行时间以及对所述第一等待队列中每个等待任务的影响系数;根据所有影响系数以及高优先级任务执行失败后的时间损失风险系数,确定所述高优先级任务的重要程度:
;其中,为所述高优先级任务的重要程度,表示为第i1个影响系数,为时间损失风险系数,表示为影响权重,表示为风险权重;表示与所述高优先级任务一致的所有影响系数的个数;基于所述高优先级任务的最迟运行时间以及当下时间,确定所述高优先级任务的剩余时间,根据所述高优先级任务的剩余时间以及所述重要程度,计算出所述高优先级任务在所述第一等待队列的初始优先级权重:;其中,表示所述高优先级任务在所述第一等待队列中的初始优先级权重,表示为所述第一等待队列中高优先级任务的剩余时间的倒数;确定所述第一等待队列中每个等待任务的执行成功率,并对每个等待任务的优先级进行修正:;其中,为等待任务i1修正之后的优先级权重,为等待任务i1的权重比例,表示等待任务i1的执行成功率;为等待任务i1的设定权重;为所述高优先级任务的当下优先级权重;将与所有按权重由大到小排列,并对存在的相同权重按照对应任务的剩余时长由小到大排列。
[0012]优选地,当所述任务平台上的每个任务基于机器学习系统运行结束后,对任务的准确率进行分析,判断准确率是否在设定阈值范围之间,若否,则将对应任务重新运行;当同个任务在所述机器学习系统两次运行且准确率都不在设定阈值范围之间,对所述同个任务的运行日志进行分析,确定所述机器学习系统中对应模型针对该任务的训练数据的是否存在问题。
[0013]优选地,将所述低优先级任务加入至所述机器学习系统的第二等待队列之后,包括:当所有高优先级任务已经运行或已加入所述第一等待队列后,如果存在节点有空闲资源时,对所述第二等待队列中的低优先级任务进行依次判断,判断未被占用资源是否满足所述第二等待队列中的低优先级任务的需求,若是,则向对应节点发送调度指令,并运行所述低优先级任务,若否,则将所述低优先级任务加入所述第二等待队列继续等待。
[0014]本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0015]下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。
附图说明
[0016]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向分布式机器学习系统的任务平台连续运行调度方法,其特征在于,包括:步骤1:基于任务平台获取机器学习系统的所有工作节点以及对应节点的当前资源占用情况;步骤2:对所有工作节点的当下占用任务进行分析,确定每个占用任务结束时间;步骤3:基于任务平台解析高优先级任务,确定所需节点以及每个所需节点的实际资源,且结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析,确定最快满足高优先级需求的第一节点,并向所述第一节点发送调度指令,将所述高优先级任务加入至对应第一节点的第一等待队列;步骤4:基于任务平台解析低优先级任务,确定所需节点以及每个所需节点的所需资源,并确定剩余未被占用的节点和节点未被占用的资源是否满足所述低优先级任务的需求,若否,则将所述低优先级任务加入至所述机器学习系统的第二等待队列。2.根据权利要求1所述的调度方法,其特征在于,所述当前资源占用情况,包括:同个工作节点已被占用资源、空闲资源以及节点总资源。3.根据权利要求1所述的调度方法,其特征在于,对所有工作节点的当下占用任务进行分析,确定每个占用任务结束时间,包括:根据每个工作节点下对应占用任务的任务类型,确定得到占用任务的理想执行时间;统计与占用任务所对应的工作节点在对应占用任务开始调用的第一时间点到当下时间点之间的实际调用次数,其中,所述实际调用次数为依赖对应占用任务所实现的调用次数;根据所述实际调用次数的实际调用量与理想调用量的差值,对理想执行时间进行优化,得到占用任务结束时间,其中,所述优化包括理想执行时间提前或延迟。4.根据权利要求3所述的调度方法,其特征在于,对所有工作节点的当下占用任务进行分析,确定每个占用任务结束时间之后,包括:当所述任务平台捕捉到新任务时,判断所述新任务是否存在预设优先级,若不存在,则对所述新任务的最迟规定运行时间进行分析,确定所述新任务的优先级级别。5.根据权利要求1所述的调度方法,其特征在于,基于任务平台解析高优先级任务,确定所需节点以及每个所需节点的实际资源,包括:分析所述高优先级任务,确定所需节点类型、不同节点类型的节点数量以及每个所需节点的理想资源;从历史数据库中获取与所述高优先级任务一致的资源调用集合,并获取得到每个所需节点的最大历史资源;估算同个所需节点的最大历史资源与理想资源的第一比值:;其中,为对应所需节点的最大历史资源,为对应所需节点的理想资源;根据所述第一比值,确定对应所需节点的第二比值:;根据同个所需节点的理想资源以及所述第二比值,确定对应节点的实际资源:
;其中,n为对应节点的实际资源。6.根据权利要求5所述的调度方法,其特征在于,结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析,确定最快满足高优先级需求的第一节点,包括:获取与所述高优先级任务所一致的每个所需...

【专利技术属性】
技术研发人员:韩国权储熠陈文浩焦旭哲李奕飞王秋菊周苗苗彭渊
申请(专利权)人:太极计算机股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1