System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于GPU集成的云计算硬件加速控制系统及方法技术方案_技高网

基于GPU集成的云计算硬件加速控制系统及方法技术方案

技术编号:40279504 阅读:20 留言:0更新日期:2024-02-02 23:07
本发明专利技术设计GPU调度领域,公开了基于GPU集成的云计算硬件加速控制系统及方法,包括如下步骤:根据GPU集群节点包括的GPU单元的状态和参数,得到对应GPU集群节点的参数和状态;算力容器构建模块根据算力任务请求的算力以及各GPU集群节点预计释放时长,得到预计最小释放时长,根据预计最小释放时长包含的GPU集群节点,建立对应算力任务的GPU集群节点列表;将对应算力任务的算力容器信息发送到对应算力任务的GPU集群节点列表中的各个GPU集群节点的算力任务执行序列;GPU集群节点执行完一个算力任务后,连接到对应算力任务的算力容器,完成基于GPU集成的云计算硬件加速控制。通过本发明专利技术,可以实现对GPU集群节点进行灵活调度,能够满足不同的GPU算力需求。

【技术实现步骤摘要】

本专利技术涉及gpu调度领域,具体是基于gpu集成的云计算硬件加速控制系统及方法。


技术介绍

1、本专利技术涉及计算机
,特别是关于gpu集群的动态调度方法。在高性能计算、大数据处理和深度学习等领域,gpu集群被广泛用于加速计算任务。然而,在现有的gpu集群中,资源的分配和任务调度大多依赖于静态的配置,这往往导致资源利用率不高,任务响应时间不稳定等问题。因此,提出一种动态调度方法,以提高gpu集群的性能和效率,具有重要的实用价值。在现有的技术中,gpu集群的调度主要采用以下几种方式:静态预分配:该方法根据预先设定的规则,将任务分配给特定的gpu。这种方法的优点是简单易行,但缺点是灵活性差,不能根据实时的系统负载进行动态调整。负载均衡:该方法根据各个gpu的负载情况,动态地将任务分配给负载较轻的gpu。这种方法在一定程度上提高了资源利用率,但实现复杂度较高,且在动态变化的负载情况下,难以保证任务的及时响应。性能优化:该方法以任务执行时间为优化目标,通过遗传算法、模拟退火等优化算法,寻求最优的任务调度方案。这种方法能够在一定程度上提高任务执行效率,但需要消耗大量的计算资源和时间,不适用于大规模的gpu集群。综上所述,现有的gpu集群调度方法存在种种不足,难以满足大规模、高效率的计算需求。

2、因此,如何更加灵活的调度gpu集群进行算力任务的执行,是当下行业研究人员需要研究的课题。


技术实现思路

1、本专利技术的目的在于克服现有技术的不足,提供基于gpu集成的云计算硬件加速控制方法,包括如下步骤:

2、步骤一,通过gpu单元检测装置对gpu集群各节点中的gpu单元进行检测,获取各个gpu单元的状态和参数,根据gpu集群节点包括的gpu单元的状态和参数,得到对应gpu集群节点的参数和状态;

3、步骤二,根据gpu集群节点的预计释放时长,建立gpu集群节点监控列表,根据gpu集群节点监控列表得到各gpu集群节点预计释放时长,算力容器构建模块根据算力任务请求的算力以及各gpu集群节点预计释放时长,得到预计最小释放时长,根据预计最小释放时长包含的gpu集群节点,建立对应算力任务的gpu集群节点列表;

4、步骤三,建立对应算力任务的算力容器,并将对应算力任务的gpu集群节点列表发送到对应算力任务的算力容器,同时将对应算力任务的算力容器信息发送到对应算力任务的gpu集群节点列表中的各个gpu集群节点的算力任务执行序列;

5、步骤四,gpu集群节点执行完一个算力任务后,根据自身的算力任务执行序列,查找下一个算力任务的算力容器信息,并连接到对应算力任务的算力容器,若在预计最小释放时长内对应算力任务的算力容器连接到对应算力任务的gpu集群节点列表中的所有gpu集群节点,则对应算力任务的算力容器就绪,进入步骤六,否则,进入步骤五;

6、步骤五,根据未连接到的gpu集群节点的算力,在gpu集群节点监控列表查找预计释放时长最小的gpu集群节点,并替换未连接到的gpu集群节点,并连接到对应算力任务的算力容器,则对应算力任务的算力容器就绪,进入步骤六;

7、步骤六,算力任务获取模块将算力任务发送到就绪的对应算力任务的算力容器,对应算力任务的算力容器执行算力任务,直到算力任务执行完毕,释放对应算力任务的gpu集群节点列表中的所有gpu集群节点,完成基于gpu集成的云计算硬件加速控制。

8、进一步的,所述的根据gpu集群节点包括的gpu单元的状态和参数,得到对应gpu集群节点的参数和状态,包括:

9、所述的gpu单元的参数包括gpu单元的算力值,根据同gpu集群节点包括的gpu单元数量,得到gpu集群节点的算力,根据gpu集群节点的算力任务执行序列,得到gpu集群节点的预计释放时长。

10、进一步的,所述的gpu集群节点的预计释放时长为:

11、根据gpu集群节点的算力任务执行序列中各算力任务执行时长的和,得到gpu集群节点的预计释放时长。

12、进一步的,所述的算力容器构建模块根据算力任务请求的算力以及各gpu集群节点预计释放时长,得到预计最小释放时长,包括:

13、根据算力任务请求的算力的算力值,得到gpu集群节点组合, gpu集群节点组合中各gpu集群节点预计释放时长最大值,即为gpu集群节点组合的最小释放时长。

14、进一步的,所述的根据算力任务请求的算力的算力值,得到gpu集群节点组合,包括:

15、根据gpu集群节点的算力值与gpu集群节点的比值,向上取整,得到gpu集群节点需求数,调取gpu集群节点需求数个gpu集群节点,得到gpu集群节点组合。

16、进一步的,所述的gpu单元的状态包括gpu单元的故障状态,若存在gpu单元,则离线对应的gpu集群节点,进行故障排除,故障排除后,重新上线gpu集群节点。

17、进一步的,所述的根据未连接到的gpu集群节点的算力,在gpu集群节点监控列表查找预计释放时长最小的gpu集群节点,并替换未连接到的gpu集群节点,并连接到对应算力任务的算力容器,包括:

18、根据未连接到的gpu集群节点的预计释放时长,若存在预计释放时长小于未连接到的gpu集群节点的预计释放时长,则将预计释放时长小于未连接到的gpu集群节点的预计释放时长的gpu集群节点,替换未连接到的gpu集群节点,并连接到对应算力任务的算力容器。

19、基于 gpu 集成的云计算硬件加速控制系统,应用所述的基于gpu集成的云计算硬件加速控制方法,包括:温度控制装置、gpu单元检测装置、算力容器构建模块、算力任务获取模块和gpu集群节点管理模块;

20、所述的温度控制装置、gpu单元检测装置、算力容器构建模块、算力任务获取模块分别与所述的gpu集群节点管理模块连接。

21、本专利技术的有益效果是:通过本专利技术所提供的技术方案,可以实现对gpu集群节点进行灵活调度,能够满足不同的gpu算力需求。

本文档来自技高网...

【技术保护点】

1.基于GPU集成的云计算硬件加速控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于GPU集成的云计算硬件加速控制方法,其特征在于,所述的根据GPU集群节点包括的GPU单元的状态和参数,得到对应GPU集群节点的参数和状态,包括:

3.根据权利要求2所述的基于GPU集成的云计算硬件加速控制方法,其特征在于,所述的GPU集群节点的预计释放时长为:

4.根据权利要求3所述的基于GPU集成的云计算硬件加速控制方法,其特征在于,所述的算力容器构建模块根据算力任务请求的算力以及各GPU集群节点预计释放时长,得到预计最小释放时长,包括:

5.根据权利要求4所述的基于GPU集成的云计算硬件加速控制方法,其特征在于,所述的根据算力任务请求的算力的算力值,得到GPU集群节点组合,包括:

6.根据权利要求2所述的基 于GPU集成的云计算硬件加速控制方法,其特征在于,所述的GPU单元的状态包括GPU单元的故障状态,若存在GPU单元,则离线对应的GPU集群节点,进行故障排除,故障排除后,重新上线GPU集群节点。

7.根据权利要求1所述的基于GPU集成的云计算硬件加速控制方法,其特征在于,所述的根据未连接到的GPU集群节点的算力,在GPU集群节点监控列表查找预计释放时长最小的GPU集群节点,并替换未连接到的GPU集群节点,并连接到对应算力任务的算力容器,包括:

8.基于GPU集成的云计算硬件加速控制系统,其特征在于,应用权利要求1-7任一所述的基于GPU集成的云计算硬件加速控制方法,包括:温度控制装置、GPU单元检测装置、算力容器构建模块、算力任务获取模块和GPU集群节点管理模块;

...

【技术特征摘要】

1.基于gpu集成的云计算硬件加速控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于gpu集成的云计算硬件加速控制方法,其特征在于,所述的根据gpu集群节点包括的gpu单元的状态和参数,得到对应gpu集群节点的参数和状态,包括:

3.根据权利要求2所述的基于gpu集成的云计算硬件加速控制方法,其特征在于,所述的gpu集群节点的预计释放时长为:

4.根据权利要求3所述的基于gpu集成的云计算硬件加速控制方法,其特征在于,所述的算力容器构建模块根据算力任务请求的算力以及各gpu集群节点预计释放时长,得到预计最小释放时长,包括:

5.根据权利要求4所述的基于gpu集成的云计算硬件加速控制方法,其特征在于,所述的根据算力任务请求的算力的算力值,得到gpu集群节点组合,包括:...

【专利技术属性】
技术研发人员:王晓丹王曦颜鑫
申请(专利权)人:四川弘智远大科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1