面向分布式机器学习系统的任务平台连续运行调度方法技术方案

技术编号：38481740 阅读：11 留言：0更新日期：2023-08-15 16:59

本发明专利技术提供了一种面向分布式机器学习系统的任务平台连续运行调度方法，属于分布式机器学习技术领域，其中方法包括基于任务平台解析高优先级任务，且结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析，确定最快满足高优先级需求的第一节点，并向所述第一节点发送调度指令，将所述高优先级任务加入至对应第一节点的第一等待队列；基于任务平台解析低优先级任务，并确定剩余未被占用的节点和节点未被占用的资源是否满足所述低优先级任务的需求，若否，则将所述低优先级任务加入至所述机器学习系统的第二等待队列，有效保证了所述机器学习系统中节点的资源利用率。的资源利用率。的资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】
面向分布式机器学习系统的任务平台连续运行调度方法

[0001]本专利技术涉及分布式机器学习
，特别涉及一种面向分布式机器学习系统的任务平台连续运行调度方法。

技术介绍

[0002]目前，在大数据的环境下，大规模的机器学习的训练对计算能力提出了新的要求，由于计算复杂度高或训练数据太多导致单机训练可能会消耗无法接受的时长，对于以上情况，可以采用分布式机器学习来减少训练的市场。目前，在分布式机器学习的连续运行的过程中，极易出现资源空闲的情况，极大的降低了节点的资源利用率。
[0003]为了提高节点的资源利用率，有必要设计一种面向分布式机器学习系统的任务平台连续运行调度方法，以解决上述问题。

技术实现思路

[0004]本专利技术提供一种面向分布式机器学习系统的任务平台连续运行调度方法，用以根据机器学习系统汇总工作节点的资源占用情况以及执行任务的信息，对高低优先级的任务进行依次安排，使节点资源的空闲时间减少，保障了节点资源的利用，极大提高了节点的资源利用率。
[0005]本专利技术提供一种面向分布式机器学习系统的任务平台连续运行调度方法，包括：步骤1：基于任务平台获取机器学习系统的所有工作节点以及对应节点的当前资源占用情况；步骤2：对所有工作节点的当下占用任务进行分析，确定每个占用任务结束时间；步骤3：基于任务平台解析高优先级任务，确定所需节点以及每个所需节点的实际资源，且结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析，确定最快满足高优先级需求的第一节点，并向所述第...

【技术保护点】

【技术特征摘要】
1.一种面向分布式机器学习系统的任务平台连续运行调度方法，其特征在于，包括：步骤1：基于任务平台获取机器学习系统的所有工作节点以及对应节点的当前资源占用情况；步骤2：对所有工作节点的当下占用任务进行分析，确定每个占用任务结束时间；步骤3：基于任务平台解析高优先级任务，确定所需节点以及每个所需节点的实际资源，且结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析，确定最快满足高优先级需求的第一节点，并向所述第一节点发送调度指令，将所述高优先级任务加入至对应第一节点的第一等待队列；步骤4：基于任务平台解析低优先级任务，确定所需节点以及每个所需节点的所需资源，并确定剩余未被占用的节点和节点未被占用的资源是否满足所述低优先级任务的需求，若否，则将所述低优先级任务加入至所述机器学习系统的第二等待队列。2.根据权利要求1所述的调度方法，其特征在于，所述当前资源占用情况，包括：同个工作节点已被占用资源、空闲资源以及节点总资源。3.根据权利要求1所述的调度方法，其特征在于，对所有工作节点的当下占用任务进行分析，确定每个占用任务结束时间，包括：根据每个工作节点下对应占用任务的任务类型，确定得到占用任务的理想执行时间；统计与占用任务所对应的工作节点在对应占用任务开始调用的第一时间点到当下时间点之间的实际调用次数，其中，所述实际调用次数为依赖对应占用任务所实现的调用次数；根据所述实际调用次数的实际调用量与理想调用量的差值，对理想执行时间进行优化，得到占用任务结束时间，其中，所述优化包括理想执行时间提前或延迟。4.根据权利要求3所述的调度方法，其特征在于，对所有工作节点的当下占用任务进行分析，确定每个占用任务结束时间之后，包括：当所述任务平台捕捉到新任务时，判断所述新任务是否存在预设优先级，若不存在，则对所述新任务的最迟规定运行时间进行分析，确定所述新任务的优先级级别。5.根据权利要求1所述的调度方法，其特征在于，基于任务平台解析高优先级任务，确定所需节点以及每个所需节点的实际资源，包括：分析所述高优先级任务，确定所需节点类型、不同节点类型的节点数量以及每个所需节点的理想资源；从历史数据库中获取与所述高优先级任务一致的资源调用集合，并获取得到每个所需节点的最大历史资源；估算同个所需节点的最大历史资源与理想资源的第一比值：；其中，为对应所需节点的最大历史资源，为对应所需节点的理想资源；根据所述第一比值，确定对应所需节点的第二比值：；根据同个所需节点的理想资源以及所述第二比值，确定对应节点的实际资源：
；其中，n为对应节点的实际资源。6.根据权利要求5所述的调度方法，其特征在于，结合机器学习系统中所有节点占用任务结束时间以及当前资源占用情况进行分析，确定最快满足高优先级需求的第一节点，包括：获取与所述高优先级任务所一致的每个所需...

【专利技术属性】
技术研发人员：韩国权，储熠，陈文浩，焦旭哲，李奕飞，王秋菊，周苗苗，彭渊，
申请(专利权)人：太极计算机股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人