System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 跨数据中心的算力调度管理方法及系统技术方案_技高网

跨数据中心的算力调度管理方法及系统技术方案

技术编号:40796715 阅读:8 留言:0更新日期:2024-03-28 19:24
本发明专利技术实施例涉及云计算技术领域,公开了一种跨数据中心的算力调度管理方法,包括:用户通过算力注册和算力申请,对异构的分布式的各数据中心算力资源进行纳管,形成算力调度的底座;基于已纳管的算力资源,进行算力任务配置,发起算力任务调度请求;对调度请求任务进行解析,分解任务的各个节点,得到各任务节点的算力资源需求信息;将各个节点任务根据预分配的数据中心以及算力需求,根据调度到对应数据中心的对应worker上;worker调用底层算力资源对各节点计算任务进行处理。该发明专利技术中的方法避免了算力资源的浪费以及网络传输的延时,提高了算力资源利用率;并且提供算力资源可视化扩容和注册方式,使得算力资源的扩容和使用更加灵活和方便。

【技术实现步骤摘要】

本专利技术涉及云计算,具体涉及一种跨数据中心的算力调度管理方法及系统


技术介绍

1、算力调度即在接收到算力任务请求后,基于算力任务的各种配置及算力需求,通过预设的算法将任务分配至合适的算力资源中进行计算处理的过程。算力任务的运行通常具有大规模、高带宽和低延迟的特点。由于各算力任务的算力需求不同,往往单一数据中心主体无法满足要求,而是需要多个数据中心协同完成,这样就涉及各数据中心算力资源调度分配的问题。

2、现有的算力任务调度方法大都是在单一数据中心上部署调度系统,根据任务对算力类型,大小等的需求,再运用传统的调度算法将对应的任务调度至对应的算力资源上进行处理。

3、然而,上述现有的算力任务调度方法存在一些不可忽略的缺陷:首先,对算力任务采取调度单一数据中心资源的方法,无法满足不同类型算力任务的需求;其次,底层数据存储在单一数据中心上,即使要实现跨数据中心算力调度,需要把底层数据同步传输到其它数据中心,造成极大的带宽,iops和延时成本;最后,算力资源的扩容需要手动部署扩容,操作繁琐,不便维护。因此,设计一种便于使用的方案成为本领域技术人员亟待解决的技术问题。


技术实现思路

1、针对所述缺陷,本专利技术实施例公开了一种跨数据中心的算力调度管理方法,其能解决算力资源扩容操作繁琐以及使用不灵活的问题。

2、本专利技术实施例第一方面公开了跨数据中心的算力调度管理方法,包括:

3、通过调用注册接口获取用户在算力任务调度系统处配置的算力管理信息;其中,所述算力管理信息包括算力注册信息和算力申请信息,所述算力任务调度系统用于对各个数据中心进行调度管理;所述算力申请信息为向各个数据中心申请加入已有算力资源;

4、被纳管的算力资源在接收到算力注册信息之后,获取传输接口中传输的参数更新配置信息,并在纳管资源上进行分布式协调服务组件、分布式文件系统组件以及任务依赖组件的部署;其中,上述组件的部署基于docker的容器化部署;

5、在组件部署完成之后,调用容器脚本启动该纳管的算力资源的分布式任务调度服务以实现算力资源的注册,其中,完成注册的算力资源被纳入算力资源池形成算力调度底座以实现跨数据中心的算力调度管理。

6、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述算力任务调度系统是基于开源的dolphinscheduler优化得到的分布式易扩展的可视化系统平台,所述算力任务调度系统用于提供可视化操作任务、工作流和全生命周期数据处理的管理。

7、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述数据中心为包含cpu、gpu、npu、fpga、asics和存储中的一种或多种的分布式的异构物理资源池,不同的数据中心需要通过ipsec vpn或者光纤通信方式在网络上互联互通;

8、在进行算力注册申请之前,用户配置被纳管资源之间免密互通以及相应的用户权限以确保部署的配置文件以及部署包能在算力注册时成功传输到各个待注册资源上;

9、所述通过调用注册接口获取用户在算力任务调度系统处输入的算力管理信息,包括:

10、在算力任务调度系统前端可视化界面通过调用注册接口获取用户在算力任务调度系统处配置的算力管理信息。

11、作为一种可选的实施方式,在本专利技术实施例第一方面中,在所述调用容器脚本启动该纳管的算力资源的分布式任务调度服务以实现算力资源的注册之后,还包括:

12、确定已纳管的算力资源的算力资源特征,并根据所述算力资源特征调用工作节点分组接口对已纳管的算力资源进行分组操作以确定相应纳管的算力资源所属工作节点分组;其中,所述工作节点分组具有一分组标识,工作节点为纳管的底层异构资源池中一物理或者虚拟的异构服务器;

13、根据配置的应用场景信息将所述工作节点分组与其他工作节点分组进行数据关联。

14、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述算力调度方法,还包括:

15、基于已纳管的算力资源进行算力任务配置以发起算力任务调度请求,所述算力任务配置包括计算场景配置、算力调度项目配置、数据文件配置和工作流配置;

16、调用算力任务调度系统的创建进程接口创建算力调度任务;所述算力调度任务包括一个或者多个任务节点;

17、对所述算力调度任务进行节点拆分以得到拆分后各个任务节点以及各个任务节点之间的依赖关系;

18、调用资源接口获取拆分后各个任务节点所需的算力类型和大小,并根据所需的算力类型和大小以及各个数据中心的已有算力特征进行匹配以调度不同数据中心的算力资源执行操作。

19、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述根据所需的算力类型和大小以及各个数据中心的已有算力特征进行匹配以调度不同数据中心的算力资源执行操作,包括:

20、各个数据中心在获取到各个任务节点的算力调度任务后,调用资源接口获取相应任务节点的算力类型和算力大小;

21、根据相应工作节点分组下各个工作节点的算力资源状态和算力调度算法调用工作节点对应的底层算力资源来对各个任务节点的算力调度任务进行处理。

22、作为一种可选的实施方式,在本专利技术实施例第一方面中,所述调用工作节点对应的底层算力资源来对各个任务节点的算力调度任务进行处理,包括:

23、工作节点根据任务要求结合配置在底层存储的数据文件调用底层的算力资源进行处理,所述数据文件在底层以分布式文件系统的方式进行存储;

24、所述数据文件通过如下步骤进行处理:

25、用户在创建算力调度任务时上传的大数据文件或者通过数据库引擎链接的存储数据都是以分布式高可用方式存储在底层存储资源,底层存储的各个数据文件对上层各个工作节点均可见;

26、在用户上传数据文件之后,算力任务调度系统获取所上传数据文件的各项数据特征,所述数据特征包括文件名称、文件类型、文件大小、用户身份信息、上传时间和更新时间;

27、基于所述数据特征形成所述数据文件的元数据表,并将所述元数据表存储在算力任务调度系统的数据库中;

28、当各个工作节点运行算力任务需要调用底层数据文件,根据元数据表存储的对应数据文件的各项特征,在底层分布式文件系统上去查找对应数据文件,然后再根据任务要求对其进行处理。

29、本专利技术实施例第二方面公开一种跨数据中心的算力调度管理系统,包括:

30、配置模块:用于通过调用注册接口获取用户在算力任务调度系统处配置的算力管理信息;其中,所述算力管理信息包括算力注册信息和算力申请信息,所述算力任务调度系统用于对各个数据中心进行调度管理;所述算力申请信息为向各个数据中心申请加入已有算力资源;

31、组件部署模块:用于被纳管的算力资源在接收到算力注册信息之后,获取传输接口中传输的参数更新配置信息,并在纳管资源上进行分布式协调服务组件、分布式文件系统组件以及任务依赖组件的部署;本文档来自技高网...

【技术保护点】

1.一种跨数据中心的算力调度管理方法,其特征在于,包括:

2.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,所述算力任务调度系统是基于开源的DolphinScheduler优化得到的分布式易扩展的可视化系统平台,所述算力任务调度系统用于提供可视化操作任务、工作流和全生命周期数据处理的管理。

3.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,所述数据中心为包含CPU、GPU、NPU、FPGA、ASICs和存储中的一种或多种的分布式的异构物理资源池,不同的数据中心需要通过IPsec VPN或者光纤通信方式在网络上互联互通;

4.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,在所述调用容器脚本启动该纳管的算力资源的分布式任务调度服务以实现算力资源的注册之后,还包括:

5.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,所述算力调度方法,还包括:

6.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,所述根据所需的算力类型和大小以及各个数据中心的已有算力特征进行匹配以调度不同数据中心的算力资源执行操作,包括:

7.如权利要求6所述的跨数据中心的算力调度管理方法,其特征在于,所述调用工作节点对应的底层算力资源来对各个任务节点的算力调度任务进行处理,包括:

8.一种跨数据中心的算力调度管理系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至7任一项所述的跨数据中心的算力调度管理方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至7任一项所述的跨数据中心的算力调度管理方法。

...

【技术特征摘要】

1.一种跨数据中心的算力调度管理方法,其特征在于,包括:

2.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,所述算力任务调度系统是基于开源的dolphinscheduler优化得到的分布式易扩展的可视化系统平台,所述算力任务调度系统用于提供可视化操作任务、工作流和全生命周期数据处理的管理。

3.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,所述数据中心为包含cpu、gpu、npu、fpga、asics和存储中的一种或多种的分布式的异构物理资源池,不同的数据中心需要通过ipsec vpn或者光纤通信方式在网络上互联互通;

4.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,在所述调用容器脚本启动该纳管的算力资源的分布式任务调度服务以实现算力资源的注册之后,还包括:

5.如权利要求1所述的跨数据中心的算力调度管理方法,其特征在于,所述算力调度...

【专利技术属性】
技术研发人员:刘玲星唐卓
申请(专利权)人:深圳市证通电子股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1