算力任务跨区域调度方法、系统及设备技术方案

技术编号:33119638 阅读:25 留言:0更新日期:2022-04-17 00:16
本发明专利技术提供了一种算力任务跨区域调度方法、系统及设备,该方法包括:定期获取区域集群资源信息,并存储;所述区域集群资源信息至少包括资源属性;配置各个资源属性的权重比例;获取算力任务重的资源配置要求,基于区域集群资源信息及所述权重比例,计算算力任务在各区域中的综合权重值;基于所述综合权重值,确定与所述算力任务对应的最佳匹配区域。本方案通过周期获取区域的资源信息,实现根据区域资源的实时动态匹配,实现根据算力任务的资源配置智能地匹配算力网络中的最优区域的目的。智能地匹配算力网络中的最优区域的目的。智能地匹配算力网络中的最优区域的目的。

【技术实现步骤摘要】
算力任务跨区域调度方法、系统及设备


[0001]本专利技术涉及计算机资源调度领域,尤其涉及处理算力任务在跨域算力中心之间匹配的方法及策略,特别涉及一种算力任务的跨区域调度方法、系统及设备。

技术介绍

[0002]云计算是近几年IT产业界和学术界研究的热点。云计算的不断成熟使得云数据中心变得越来越重要和复杂。虚拟化技术的发展使单个物理主机可以同时运行多个虚拟机,这使得任务计算所要求的资源可以按需分配给用户,以满足用户的多样性、动态性的需求。目前基于云计算的算力网络中,节点之间缺乏协同,计算资源利用率低。一方面,单一的计算节点资源受限,难以有效快速处理计算任务,特别是对于一些计算密集型的任务,可能导致计算节点负载重、计算任务处理时间长的问题;另一方面,虽然计算资源呈现出泛在部署的趋势,但是计算节点之间,以及计算节点与云计算节点之间缺乏有效协同机制,计算任务的分配与调度机制尚不完善,造成计算资源利用率低。
[0003]在目前的现有技术中个,算力任务在算力网络中的调派只能在配置人员指定区域流转,无法根据区域资源做实时变动。因此,如何基于区域的资源信息,实时根据区域资源合理的调度任务,并且及时确定最优计算区域,成为目前亟待解决的问题。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种算力任务跨区域调度方法、系统及设备,本方案通过周期获取区域的资源信息,实现根据区域资源的实时动态匹配,并且在区域资源满足算力任务的同时,计算出最优区域。具体而言,本专利技术提供了如下技术方案:一方面,本专利技术提供了一种算力任务跨区域调度方法,该方法包括:步骤1、定期获取区域集群资源信息,并存储;所述区域集群资源信息至少包括资源属性;步骤2、配置各个资源属性的权重比例;配置各分中心的优先因子;步骤3、基于步骤1中的区域集群资源的最新记录及步骤2中的优先因子,确定算力任务的资源要求与分中心的区域集群资源的最新记录是否匹配,当匹配时,获取算力任务中的资源配置要求,结合匹配的区域集群资源对应的权重比例,计算算力任务在各区域中的综合权重值;步骤4、基于所述综合权重值,确定与所述算力任务对应的最佳匹配分中心。
[0005]优选的,所述步骤1中,定期获取通过以下方式:调用区域的资源集群的查询接口;查询接口返回集群资源信息;将所述集群资源信息存储在数据库中的集群资源信息表;所述集群资源信息数据格式为:{"payload":{"resouces":{"nodeName":"nodeName","ip":"ip","status":"
status","capacity":{"cpu","memory"},"allocated":{"cpu","memory"}}}}其中,capacity表示资源总容量,allocated为已使用资源容量,nodeName为节点名称,status为节点状态,payload表示一种用json格式进行数据传输的方式,resources表示集群资源信息的集合,memory表示内存大小。
[0006]优选的,所述步骤2中,所述集群资源信息表中记录的资源信息,以区域中心id和资源属性编码作为联合主键。
[0007]优选的,所述步骤2中,所述权重比例及优先因子的配置依据为:各个属性在算力任务中依赖的程度的评估,以及分中心重要程度和访问频率的评估。
[0008]优选的,所述权重比例包括cpu权重比例,所述cpu权重比例的计算方式为:(capacity
cpu

requeset
cpu * 10 / capacity
cpu
) * weight
cpu
其中,capacity
cpu
表示cpu的分中心资源总量,requeset
cpu
表示当前已经被占用的资源数,weight
cpu
表示cpu的权重值。
[0009]优选的,所述步骤3中,所述综合权重值的计算方式为:(cpu
weight
+gpu
weight
+shm
weight
+memory
weight
)*优先因子其中,cpu
weight
表示cpu的权重比例,gpu
weight
表示gpu的权重比例,shm
weight
表示共享内存权重,memory
weight
表示内存权重。
[0010]优选的,所述步骤4进一步包括:以获取到的综合权重值最高的区域作为最佳匹配区域;或者当多个区域对应的综合权重值相等时,以随机方式确定最佳匹配区域。
[0011]另一方面,本专利技术还提供了一种算力任务跨区域调度系统,该系统包括:多个区域算力分中心、调度模块、存储模块;所述多个区域算力分中心与所述调度模块连接,所述调度模块与所述存储模块连接;所述调度模块包括:资源信息获取单元,用于定期获取区域集群资源信息,并存储至所述存储模块;所述区域集群资源信息至少包括资源属性;权重配置单元,用于配置各个资源属性的权重比例,配置各区域算力分中心的优先因子;综合权重计算单元,用于获取算力任务重的资源配置要求,基于区域集群资源信息及所述权重比例,计算算力任务在各区域中的综合权重值;基于区域集群资源信息的最新记录及优先因子,确定算力任务的资源要求与区域算力分中心的区域集群资源的最新记录是否匹配,当匹配时,获取算力任务中的资源配置要求,结合匹配的区域集群资源对应的权重比例,计算算力任务在各区域算力分中心的综合权重值;区域匹配单元,用于基于所述综合权重值,确定与所述算力任务对应的最佳匹配区域。
[0012]优选的,所述区域匹配单元中,以获取到的综合权重值最高的区域算力分中心作为最佳匹配区域;或者
当多个区域算力分中心对应的综合权重值相等时,以随机方式确定最佳匹配区域。
[0013]优选的,所述资源信息获取单元与各区域算力分中心的查询接口连接,以调用区域的资源集群的查询接口,获取区域集群资源信息。
[0014]优选的,所述资源属性包括cpu(即中央处理器)、gpu(即图形处理器)、华为网络处理器NPU(即网络处理器)、mlu(即ai训练卡)、memory(即内存)、shm(即共享内存)等。该些资源属性反应出区域集群资源中对应使用的该些设备或模块的型号、使用要求等,以反应出区域集群中的设备的特性,从而便于后续的信息的对应和筛选。
[0015]又一方面,本专利技术还提供了一种算力任务跨区域调度设备,所述设备包括存储器及处理器,所述处理器可以调用所述存储器中的计算机指令,以执行如上所述的算力任务跨区域调度方法。
[0016]与现有技术相比,本专利技术的技术方案通过周期获取区域的资源信息,实现根据区域资源的实时动态匹配,并且在保证了区域资源满足算力任务的同时,计算出最优区域,实现根据算力任务的资源配置智能地匹配算力网络中的最优区域的目的。
附图说明
[0017]为了更清楚地说明本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种算力任务跨区域调度方法,其特征在于,所述方法包括:步骤1、定期获取区域集群资源信息,并存储;所述区域集群资源信息至少包括资源属性;步骤2、配置各个资源属性的权重比例;配置各分中心的优先因子;步骤3、基于步骤1中的区域集群资源的最新记录及步骤2中的优先因子,确定算力任务的资源要求与分中心的区域集群资源的最新记录是否匹配,当匹配时,获取算力任务中的资源配置要求,结合匹配的区域集群资源对应的权重比例,计算算力任务在各区域中的综合权重值;步骤4、基于所述综合权重值,确定与所述算力任务对应的最佳匹配分中心。2.根据权利要求1所述的方法,其特征在于,所述步骤1中,定期获取通过以下方式:调用区域的资源集群的查询接口;查询接口返回集群资源信息;将所述集群资源信息存储在数据库中的集群资源信息表;所述集群资源信息数据格式为:{"payload":{"resouces":{"nodeName":"nodeName","ip":"ip","status":"status","capacity":{"cpu","memory"},"allocated":{"cpu","memory"}}}}其中,capacity表示资源总容量,allocated为已使用资源容量,nodeName为节点名称,status为节点状态,payload表示一种用json格式进行数据传输的方式,resources表示集群资源信息的集合,memory表示内存大小。3.根据权利要求2所述的方法,其特征在于,所述步骤2中,所述集群资源信息表中记录的资源信息,以区域中心id和资源属性编码作为联合主键。4.根据权利要求1所述的方法,其特征在于,所述步骤2中,所述权重比例及优先因子的配置依据为:各个属性在算力任务中依赖程度的评估,以及分中心重要程度和访问频率的评估。5.根据权利要求1所述的方法,其特征在于,所述权重比例包括cpu权重比例,所述cpu权重比例的计算方式为:(capacity
cpu

requeset
cpu * 10 / capacity
cpu
) * weight
cpu
其中,capacity
cpu
表示cpu的分中心资源总量,requeset
cpu
表示当前已经被占用的资源数,weigh...

【专利技术属性】
技术研发人员:王伟华刘井山吴政彭文藻
申请(专利权)人:梯度云科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1