当前位置: 首页 > 专利查询>武汉大学专利>正文

面向海量机器学习任务的异构服务器自动调度系统及方法技术方案

技术编号:34766301 阅读:32 留言:0更新日期:2022-08-31 19:17
本发明专利技术公开了一种面向海量机器学习任务的异构服务器自动调度系统及方法,首先通过服务器集群管理模块将所有处理节点录入到系统;处理节点信息同步到元信息集群,同时每个处理节点也会将元信息集群中的信息存储在本地数据库;然后通过创建机器学习任务编排模块创建机器学习任务,任务状态设置为待处理,任务保存到本地数据库中;接着任务调度子模块,定时从本地数据库中获取未完成的构建任务,选择其中一个任务,将其状态设置为处理中;最后选择处理节点,进行任务调度、任务处理和集群信息更新;本发明专利技术提高海量机器学习任务执行效率,和提高异构服务器集群的利用效率。和提高异构服务器集群的利用效率。和提高异构服务器集群的利用效率。

【技术实现步骤摘要】
面向海量机器学习任务的异构服务器自动调度系统及方法


[0001]本专利技术属于信息
,涉及一种异构服务器自动调度系统及方法,具体涉及一种面向海量机器学习任务的异构服务器自动调度系统及方法。

技术介绍

[0002]传统机器学习任务通常在少量几个服务器上处理和训练数据,然而随着互联网发展,数据量呈爆炸式增长,少量服务器无法满足机器学习任务的庞大数据存储和计算需求,带来任务执行时间长、机器利用效率低下、结果处理工作量巨大等问题。建设服务器集群可以提高算力,提高并发任务数量,但是在海量机器学习任务和服务器集群之间的任务调度、分发、执行、结果获取、服务器状态保持等仍然是一项繁琐、工作量巨大的工作。
[0003]现在没有专用的面向海量机器学习任务的异构服务器自动调度系统,有的系统支持异构服务器管理维护,但是不支持海量机器学习任务的自动调度,不支持机器学习任务的容错机制,不支持无感知服务器横向扩展及收缩,不支持任务结果获取处理,不支持异构服务器集群负载均衡机制。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供了一本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向海量机器学习任务的异构服务器自动调度系统,其特征在于:包括若干处理节点、服务器集群管理模块、元信息集群、本地数据库和创建机器学习任务编排模块;所述处理节点设置有任务调度处理模块,所述任务调度处理模块包括任务调度子模块、任务处理子模块和集群信息更新子模块;所述处理节点,为网络中的异构服务器,所有异构服务器组成服务器集群;所述处理节点均设置有配置信息,包括支持的编译环境、可使用CPU数量、可使用GPU数量、可使用内存数量、GPU使用率、内存使用率、节点负载、运行时间;所述服务器集群管理模块,用于将所有处理节点录入到系统,处理节点信息会同步到元信息集群,同时每个处理节点也会将元信息集群中的信息存储在本地数据库;用于新处理节点需要加入到集群,处理节点需要退出集群,及处理节点发生故障后的处理;用于创建机器学习任务;所述元信息集群,用于保存所有处理节点的实时状态信息;所述创建机器学习任务编排模块,用于为机器学习任务中每个步骤依次配置相关的配置信息,包括任务名称、任务类型、数据集、评价指标、需要CPU数量、需要GPU数量、需要内存大小;所述任务类型包括分类、聚类、预测;所述任务调度子模块,用于定时从本地数据库中获取未完成的构建任务,选择其中一个任务,将其状态设置为处理中;用于根据任务所需要CPU、GPU、内存数量,以及服务器集群中每个处理节点的CPU、GPU、内存使用情况,找到最适合该任务的处理节点,调用任务处理子模块执行该机器学习任务;所述任务处理子模块,用于执行机器学习任务,并将执行结果发送给任务调度子模块,将执行结果写入本地数据库;所述集群信息更新子模块,用于定时与元信息集群通信,同步处理节点状态信息到元信息集群,同时将元信息集群的信息复制到本地数据库;每个处理节点能运行1个集群信息更新子模块,1个任务调度子模块,1个或多个任务处理子模块。2.一种面向海量机器学习任务的异构服务器自动调度方法,其特征在于,包括以下步骤:步骤1:通过服务器集群管理模块将所有处理节点录入到系统;处理节点信息同步到元信息集群,同时每个处理节点也会将元信息集群中的信息存储在本地数据库;步骤2:通过创建机器学习任务编排模块创建机器学习任务,任务状态设置为待处理,任务保存到本地数据库中;步骤3:任务调度子模块,定时从本地数据库中获取未完成的构建任务,选择其中一个任务,将其状态设置为处理中;步骤4:选择处理节点,进行任务调度、任务处理和集群信息更新;所述任务调度子模块读取本地数据库中处于待处理状态的任务,找到与该任务最匹配的处理节点,连接该处理节点的任务处理子模块,将任务调度给该处理节点的任务处理子模块进行处理;任务处理子模块在处理节点上执行该机器学习任务,任务执行完毕之后将执行结果发送给任务调度子模块,任务调度子模块将执行结果存储到本地数据库中。3.根据权利要求2所述的面向海量机器学习任务的异构服务器自动调度方法,其特征
在于,步骤1的具体实现包括以下子步骤:步骤1.1:启动处理节点;步骤1.2:每个处理节点自动注册到元信息集群,将自身配置信息同步到元信息集群,同时读取当前元信息集群所有处理节点在运行过程中的配置信息;处理节点在运行过程中的配置信息包括支持的编译环境、可使用CPU数量、已使用CPU数量,可使用GPU数量、已使用GPU数量、可使用内存数量、已使用内存数量;步骤1.3:判断元信息集群中是否有处理节点失效;若是,则将处理节点从本地元信息集群中剔除;然后执行步骤1.4;若否,则执行步骤1.4;步骤1.4:判断元信息集群中是否有新处理节点加入;若是,则将新处理节点同步到本地元信息集群中;然后执行步骤1.5;若否,则执行步骤1.5;步骤1.5:判断元信息集群中是否移除新处理节点;若是,则将处理节点从本地元信息集群中...

【专利技术属性】
技术研发人员:张典石小川马超
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1