System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于公有云的AIGC训练任务的分配方法和系统技术方案_技高网

一种基于公有云的AIGC训练任务的分配方法和系统技术方案

技术编号:41251704 阅读:2 留言:0更新日期:2024-05-09 23:59
本申请提供了一种基于公有云的AIGC训练任务的分配方法和系统;其中,AIGC训练任务的分配方法包括:获取AIGC模型的AIGC训练任务,根据AIGC训练任务的任务发起强度和日均访问次数,划分AIGC训练任务的发起用户的用户等级;使用DRS算法,根据GPU裸金属服务器的资源使用情况,对AIGC训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分;根据主机评分和虚拟机评分,设置AIGC训练任务对应的虚拟机迁移建议敏感度;根据用户等级和虚拟机迁移建议敏感度,向AIGC训练任务分配服务器算力,执行AIGC训练任务对应的虚拟机迁移操作。本申请的技术方案能解决现有技术难以进行灵活的AIGC训练任务分配,服务器负载分布不均衡的问题。

【技术实现步骤摘要】

本申请涉及生成式人工智能,尤其涉及一种基于公有云的aigc训练任务的分配方法和系统。


技术介绍

1、aigc(artificial intelligence generated content,生成式人工智能)是指基于生成对抗网络或大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。

2、aigc技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,aigc能够根据输入的条件或指导,生成与之相关的内容。aigc的训练需要选择对应的训练模型,为了实现快速高效的aigc,需要配备高性能的aigc训练模型用gpu服务器。每一aigc训练模型都存在大量的aigc训练任务,这对gpu服务器的性能提出了更高要求。

3、传统背景下,aigc的训练任务多,数据量大,导致难以进行灵活的aigc训练任务的分配,进而导致gpu裸金属服务器负载量大,任务繁多,出现多个服务器中,一些服务器利用率过高,一些服务器过于空闲的情况。综上,一个灵活的aigc的训练任务分配机制在此刻显得尤为重要。

4、申请内容

5、本申请提供一种基于公有云的aigc训练任务的分配方案,能够解决现有技术难以进行灵活的aigc训练任务分配,导致服务器负载分布不均衡的问题。

6、为解决上述问题,根据本申请的第一方面,本申请提供了一种基于公有云的aigc训练任务的分配方法,包括:

7、获取aigc训练任务,根据aigc训练任务的任务发起强度和日均访问次数,划分aigc训练任务对应发起用户的用户等级;

8、使用drs算法,根据gpu裸金属服务器的资源使用情况,对aigc训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分;

9、根据主机评分和虚拟机评分,设置aigc训练任务对应的虚拟机迁移建议敏感度;

10、根据用户等级和虚拟机迁移建议敏感度,向aigc训练任务分配服务器算力,执行aigc训练任务对应的虚拟机迁移操作。

11、优选的,上述aigc训练任务的分配方法中,根据aigc训练任务的任务发起强度和日均访问次数,划分aigc训练任务对应发起用户的用户等级的步骤,包括:

12、根据aigc训练任务的当日发起任务数和用户发起任务总数,计算发起用户的任务发起强度;

13、判断任务发起强度是否大于或等于预定强度阈值,以及判断日均访问次数是否大于或等于预定次数阈值;

14、若任务发起强度大于或等于预定强度阈值且日均访问次数大于或等于预定次数阈值,则定义发起用户为强使用用户;

15、若任务发起强度小于预定强度阈值且日均访问次数小于预定次数阈值,则定义发起用户为弱使用用户;

16、若所述任务发起强度大于或等于预定强度阈值且所述日均访问次数小于预定次数阈值,或者所述任务发起强度小于预定强度阈值且所述日均访问次数大于或等于预定次数阈值,则定义所述发起用户为标准使用用户。

17、优选的,aigc训练任务的分配方法,使用drs算法,根据gpu裸金属服务器的资源使用情况,对aigc训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分的步骤,包括:

18、根据gpu裸金属服务器的gpu空闲时间,对服务器主机的主机gpu进行评分,得到主机gpu评分;

19、根据gpu裸金属服务器的主机可用内存占比,对服务器主机的主机内存进行评分,得到主机内存评分;

20、以及,

21、根据gpu裸金属服务器的虚拟机副本的数据块比例,对服务器主机存储进行评分,得到主机存储评分;

22、对主机gpu评分、主机内存评分和主机存储评分进行加权统计,得到主机评分。

23、优选的,上述aigc训练任务的分配方法中,使用drs算法,根据gpu裸金属服务器的资源使用情况,对aigc训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分的步骤,包括:

24、根据虚拟机的cuda占用率,对虚拟机的gpu进行评分,得到虚拟机gpu评分;

25、判断虚拟机的内存是否超分,若虚拟机的内存超分,则根据虚拟机对共享内存的使用比例,对虚拟机的内存进行评分,得到虚拟机内存评分;

26、以及,

27、根据虚拟机所在节点拥有虚拟机的副本数据块比例,对虚拟机的存储性能进行评分,得到虚拟机存储评分;

28、对虚拟机gpu评分、虚拟机内存评分和虚拟机存储评分进行加权统计,得到虚拟机评分。

29、优选的,上述aigc训练任务的分配方法中,根据虚拟机的cuda占用率,对虚拟机的gpu进行评分,得到虚拟机gpu评分的步骤,包括:

30、使用gpu监视工具、监控cuda程序占用gpu的计算资源时间以及gpu总的计算资源时间;

31、计算cuda程序占用gpu的计算资源时间与gpu总的计算资源时间之比,得到cuda占用率。

32、优选的,上述aigc训练任务的分配方法中,根据主机评分和虚拟机评分,设置aigc训练任务对应的虚拟机迁移建议敏感度的步骤,包括:

33、判断所述主机评分是否小于或等于预定第一评分阈值,以及判断所述虚拟机评分是否小于或等于预定第二评分阈值;

34、若所述主机评分小于或等于预定第一评分阈值,且所述虚拟机评分小于或等于预定第二评分阈值,则确定所述虚拟机迁移建议敏感度为激进;

35、若所述主机评分大于预定第一评分阈值,且所述虚拟机评分大于预定第二评分阈值,则确定所述虚拟机迁移建议敏感度为保守;

36、若所述主机评分小于或等于预定第一评分阈值且虚拟机评分大于预定第二评分阈值,或者所述主机评分大于预定第一评分阈值且虚拟机评分小于或等于预定第二评分阈值,则确定所述虚拟机迁移建议敏感度为标准。

37、优选的,上述aigc训练任务的分配方法中,根据所述用户等级和所述虚拟机迁移建议敏感度,向所述aigc训练任务分配服务器算力,执行所述aigc训练任务对应的虚拟机迁移操作的步骤,包括:

38、确定不同用户等级对应的服务器算力,以及不同虚拟机迁移建议敏感度对应的服务器算力;

39、确定所述aigc训练任务对应的用户等级和虚拟机迁移建议敏感度;

40、按照预定算力分配规则,综合所述用户等级对应的服务器算力与所述虚拟机迁移建议敏感度对应的服务器算力,向所述aigc训练任务分配最终的服务器算力;

41、按照所述最终的服务器算力,执行所述aigc训练任务对应的虚拟机迁移操作。

42、根据本申请的第二方面,本申请还提供了一种基于公有云的aigc训练任务的分配系统,包括:

43、用户等级划分模块,用于获取aigc训练任务,根据aigc训练任务的任务发起强度和日均访问次数,划分ai本文档来自技高网...

【技术保护点】

1.一种基于公有云的AIGC训练任务的分配方法,其特征在于,包括:

2.根据权利要求1所述的AIGC训练任务的分配方法,其特征在于,所述根据所述AIGC训练任务的任务发起强度和日均访问次数,划分所述AIGC训练任务对应发起用户的用户等级的步骤,包括:

3.根据权利要求1所述的AIGC训练任务的分配方法,其特征在于,所述使用DRS算法,根据GPU裸金属服务器的资源使用情况,对所述AIGC训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分的步骤,包括:

4.根据权利要求1所述的AIGC训练任务的分配方法,其特征在于,所述使用DRS算法,根据GPU裸金属服务器的资源使用情况,对所述AIGC训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分的步骤,包括:

5.根据权利要求4所述的AIGC训练任务的分配方法,其特征在于,所述根据虚拟机的CUDA占用率,对所述虚拟机的GPU进行评分,得到虚拟机GPU评分的步骤,包括:

6.根据权利要求1所述的AIGC训练任务的分配方法,其特征在于,所述根据所述主机评分和所述虚拟机评分,设置所述AIGC训练任务对应的虚拟机迁移建议敏感度的步骤,包括:

7.根据权利要求6所述的AIGC训练任务的分配方法,其特征在于,所述根据所述用户等级和所述虚拟机迁移建议敏感度,向所述AIGC训练任务分配服务器算力,执行所述AIGC训练任务对应的虚拟机迁移操作的步骤,包括:

8.一种基于公有云的AIGC训练任务的分配系统,其特征在于,包括:

9.根据权利要求8所述的AIGC训练任务的分配系统,其特征在于,所述用户等级划分模块,包括:

10.一种基于公有云的AIGC训练任务的分配系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于公有云的aigc训练任务的分配方法,其特征在于,包括:

2.根据权利要求1所述的aigc训练任务的分配方法,其特征在于,所述根据所述aigc训练任务的任务发起强度和日均访问次数,划分所述aigc训练任务对应发起用户的用户等级的步骤,包括:

3.根据权利要求1所述的aigc训练任务的分配方法,其特征在于,所述使用drs算法,根据gpu裸金属服务器的资源使用情况,对所述aigc训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分的步骤,包括:

4.根据权利要求1所述的aigc训练任务的分配方法,其特征在于,所述使用drs算法,根据gpu裸金属服务器的资源使用情况,对所述aigc训练任务对应的服务器主机和虚拟机分别进行评分,分别得到主机评分和虚拟机评分的步骤,包括:

5.根据权利要求4所述的aigc训练任务...

【专利技术属性】
技术研发人员:顾斌刘涛于中阳王亚菁
申请(专利权)人:上海极目银河数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1