System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种算力资源调度方法及装置、系统、设备、存储介质制造方法及图纸_技高网

一种算力资源调度方法及装置、系统、设备、存储介质制造方法及图纸

技术编号:40033513 阅读:7 留言:0更新日期:2024-01-16 18:36
本申请公开了一种算力资源调度方法及装置、系统、设备、存储介质,涉及计算机技术领域,解决了目前AI推理容器的算力资源利用率较低,同时再算法启动后算力资源无法改变的问题。该方法包括:获取AI推理容器的推荐运行指标。对推荐运行指标进行压测,确定AI推理容器的推荐算力配额和推荐显存资源配额。获取AI推理容器的实时运行指标。根据实时运行指标和算力弹性浮动范围,确定AI推理容器的实时算力配额和实时显存资源配额。算力弹性浮动范围根据AI推理容器的算力浮动值和算力限制值确定。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种算力资源调度方法及装置、系统、设备、存储介质


技术介绍

1、gpu虚拟化是指将物理gpu(graphics process ing unit)设备划分为多个虚拟gpu,使多个用户或应用程序能够共享同一台物理gpu,并在虚拟化环境中独立地使用gpu资源。gpu虚拟化的出现主要是为了满足在多租户环境中对gpu资源的高效利用和灵活分配的需求,特别是在云计算和大规模数据处理领域。

2、现有的ai推理容器在部署前,针对gpu虚拟化算力的配额分配,需要经过一系列压测操作和人工分析监控日志才能最终确定,使用方法较为复杂。同时,ai推理容器在调整容器实例数时,容器的启动和停止依然需要一定时间,开发人员在开发、测试、优化算法的过程中,目前现有技术在算法启动后,其所使用的算力资源无法改变。而且,单实例推理容器的实时gpu使用率很低时,无法再通过降低容器实例数降低其gpu资源分配,所以依然会有一定的算力资源浪费,ai推理容器的算力资源利用率较低。


技术实现思路

1、本申请提供了一种算力资源调度方法及装置、系统、设备、存储介质,用于解决目前ai推理容器的算力资源利用率较低,同时再算法启动后算力资源无法改变的问题。

2、为达到上述目的,本申请采用如下技术方案:

3、第一方面,本申请提供了一种算力资源调度方法,该方法包括:获取ai推理容器的推荐运行指标。对推荐运行指标进行压测,确定ai推理容器的推荐算力配额和推荐显存资源配额。获取ai推理容器的实时运行指标。根据实时运行指标和算力弹性浮动范围,确定ai推理容器的实时算力配额和实时显存资源配额。算力弹性浮动范围根据ai推理容器的算力浮动值和算力限制值确定。

4、本申请提供的算力资源调度方法,通过获取ai推理容器的推荐运行指标,进而对推荐运行指标进行压测,可以自动确定ai推理容器的推荐算力配额的推荐显存配额,简化了确定ai推理容器gpu资源配额的流程,提高ai推理容器的部署效率。进一步的,通过获取ai推理容器的实时运行指标,根据实时运行指标以及算力弹性资源配额,确定ai推理容器的实时算力配额和实时显存资源配额,可以实现不调整容器实例数以及不启停容器甚至不影响容器内算法运行的情况下,实现算法使用算力资源自动或手动的扩容缩容。同时,开发人员在开发、测试、优化算法的过程中可以不启停容器,甚至不启停算法的情况下改变算法所使用的gpu算力资源,简化了开发、测试、优化算法流程,提高工作效率,减少时间成本。

5、一种可能的实现方式,获取ai推理容器的推荐运行指标,包括:为ai推理容器分配算力资源。算力资源多于ai推理容器需求的最大算力资源。监测ai推理容器的运行指标。运行指标包括以下一个或多个:延迟、qos、qps、算力消耗和显存资源消耗。利用逐步增加并发数方式对ai推理容器进行压测,确定推荐运行指标。推荐运行指标包括以下一个或多个:满足qos要求的最大延迟、最小qps的延迟、最优qps、最优并发数、算力消耗和显存资源消耗。

6、一种可能的实现方式,对推荐运行指标进行压测,确定ai推理容器的推荐算力配额和推荐显存资源配额,包括:将算力消耗设置为ai推理容器的算力配额,将显存资源消耗设置为ai推理容器的显存配额。将最优并发数设置为ai推理容器的并发数。对ai推理容器进行压测,确定ai推理容器的第一运行指标。第一运行指标包括以下一个或多个:第一延迟、第一qps。若第一延迟与最大延迟的差值小于或等于第一门限值且第一qps与最优qps的差值小于或等于第二门限值,确定算力配额为推荐算力配额、显存资源配额为推荐显存资源配额。

7、一种可能的实现方式,本申请提供的算力资源调度方法,还包括:若第一延迟与最大延迟的差值大于第一门限值或第一qps与最优qps的差值大于第二门限值,按照预设的算力资源步长递增配置算力资源配额和显存资源配额。若第一延迟与最大延迟的差值小于或等于第一门限值,确定算力配额为推荐算力配额、显存资源配额为推荐显存资源配额。

8、一种可能的实现方式,实时运行指标包括:实时延迟。根据实时运行指标和算力弹性浮动范围,确定ai推理容器的实时算力配额和实时显存资源配额,包括:若实时延迟大于ai推理容器的最大延迟,根据算力弹性浮动范围提高推荐算力配额,确定实时算力配额。根据算力弹性浮动范围提高推荐显存资源配额,确定实时显存资源配额。

9、第二方面,本申请实施例还提供了一种算力资源调度装置,包括:获取模块、确定模块。

10、其中,获取模块,用于获取ai推理容器的推荐运行指标。

11、确定模块,用于对推荐运行指标进行压测,确定ai推理容器的推荐算力配额和推荐显存资源配额。

12、获取模块,还用于获取ai推理容器的实时运行指标。

13、确定模块,还用于根据实时运行指标和算力弹性浮动范围,确定ai推理容器的实时算力配额和实时显存资源配额。算力弹性浮动范围根据ai推理容器的算力浮动值和算力限制值确定。

14、一种可能的实现方式,本申请提供的算力资源调度装置还包括:

15、分配模块,用于为ai推理容器分配算力资源。算力资源多于ai推理容器需求的最大算力资源。

16、监测模块,用于监测ai推理容器的运行指标。运行指标包括以下一个或多个:延迟、qos、qps、算力消耗和显存资源消耗。

17、确定模块,还用于利用逐步增加并发数方式对ai推理容器进行压测,确定推荐运行指标。推荐运行指标包括以下一个或多个:满足qos要求的最大延迟、最小qps的延迟、最优qps、最优并发数、算力消耗和显存资源消耗。

18、一种可能的实现方式,本申请提供的算力资源调度装置,还包括:

19、设置模块,用于将算力消耗设置为ai推理容器的算力配额,将显存资源消耗设置为ai推理容器的显存配额。将最优并发数设置为ai推理容器的并发数。

20、确定模块,具体用于对ai推理容器进行压测,确定ai推理容器的第一运行指标。第一运行指标包括以下一个或多个:第一延迟、第一qps。若第一延迟与最大延迟的差值小于或等于第一门限值且第一qps与最优qps的差值小于或等于第二门限值,确定算力配额为推荐算力配额、显存资源配额为推荐显存资源配额。

21、一种可能的实现方式,本申请提供的算力资源调度装置,还包括:

22、配置模块,用于若第一延迟与最大延迟的差值大于第一门限值或第一qps与最优qps的差值大于第二门限值,按照预设的算力资源步长递增配置算力资源配额和显存资源配额。

23、确定模块,还用于若第一延迟与最大延迟的差值小于或等于第一门限值,确定算力配额为推荐算力配额、显存资源配额为推荐显存资源配额。

24、一种可能的实现方式,实时运行指标包括:实时延迟。本申请提供的算力资源调度装置,还包括:

25、确定模块,具体用于若实时延迟大于ai推理容器的最大延迟,根据算力本文档来自技高网...

【技术保护点】

1.一种算力资源调度方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取AI推理容器的推荐运行指标,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述对所述推荐运行指标进行压测,确定所述AI推理容器的推荐算力配额和推荐显存资源配额,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法,还包括:

5.根据权利要求1所述的方法,其特征在于,所述实时运行指标包括:实时延迟;所述根据所述实时运行指标和算力弹性浮动范围,确定所述AI推理容器的实时算力配额和实时显存资源配额,包括:

6.一种算力资源调度装置,其特征在于,包括:

7.根据权利要求6所述的装置,其特征在于,所述装置还包括:

8.根据权利要求6或7所述的装置,其特征在于,所述装置,还包括:

9.根据权利要求8所述的装置,其特征在于,所述装置,还包括:

10.根据权利要求6所述的装置,其特征在于,所述实时运行指标包括:实时延迟;

11.一种GPU资源调度系统,其特征在于,包括:GPU资源配额确认模块、GPU资源调整模块、检测模块、GPU资源管理模块;所述GPU资源配额确认模块与所述GPU资源调整模块连接;所述GPU资源配额确认模块与所述检测模块连接;所述GPU资源配额确认模块与所述GPU资源管理模块;所述GPU资源调整模块与所述检测模块连接;所述检测模块与所述GPU资源配额确认模块连接;

12.一种算力资源调度设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的算力资源调度方法。

13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的算力资源调度方法。

...

【技术特征摘要】

1.一种算力资源调度方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述获取ai推理容器的推荐运行指标,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述对所述推荐运行指标进行压测,确定所述ai推理容器的推荐算力配额和推荐显存资源配额,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法,还包括:

5.根据权利要求1所述的方法,其特征在于,所述实时运行指标包括:实时延迟;所述根据所述实时运行指标和算力弹性浮动范围,确定所述ai推理容器的实时算力配额和实时显存资源配额,包括:

6.一种算力资源调度装置,其特征在于,包括:

7.根据权利要求6所述的装置,其特征在于,所述装置还包括:

8.根据权利要求6或7所述的装置,其特征在于,所述装置,还包括:

9.根据权利要求8所述的装置,其特征在于,所述装置,还包括:

10.根据权利要求6...

【专利技术属性】
技术研发人员:陈东张浩钊徐舒赵子彬潘桂新吴阳姚瑞卿叶晓斌马丹丹江雪莲
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1