System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,尤其涉及一种资源调度方法、系统及装置。
技术介绍
1、随着人工智能的快速发展,大模型也广泛应用于各行各业。大模型(large model)是指具有数百万或数十亿个参数的深度神经网络模型,需要占用大量的计算资源、运算空间、时间和电力等资源来保证它的训练和部署。
2、部署基于gpu的大模型(以下称:多任务处理模型)推理服务时,由于模型较大,多任务处理模型启动时间较长,加载过程中多任务处理模型无法正常工作,因此在多任务处理模型开始对外服务后,因故障导致的多任务处理模型异常终止时,需要重启多任务处理模型又需要经过加载过程,导致长时间无法提供正常服务。
技术实现思路
1、本公开提供了一种资源调度方法、系统及装置,以至少解决现有技术中存在的以上技术问题。
2、根据本公开的第一方面,提供了一种资源调度方法,所述方法包括:
3、接收目标多任务处理模型启动服务的申请指令,其中,所述申请指令用于申请支持所述目标多任务处理模型运行所需硬件资源的运算空间;
4、基于所述申请指令,确定与所述目标多任务处理模型对应的目标节点,其中,所述目标节点包含至少一个硬件资源;
5、基于所述目标节点和第一映射表,确定与所述目标多任务处理模型对应的目标硬件资源中的目标运算空间,其中,所述第一映射表包含有多任务处理模型与硬件资源中运算空间之间的映射关系,所述目标节点配置有第一映射表。
6、在一可实施方式中,所述基于所述申请指令,确定与所
7、根据所述申请指令,确定所述目标多任务处理模型的目标身份信息;
8、基于第二映射表,确定与所述目标身份信息对应的目标节点,其中,所述第二映射表包含有多任务处理模型与节点之间的映射关系。
9、在一可实施方式中,所述基于所述目标节点和第一映射表,确定与所述目标多任务处理模型对应的目标硬件资源中的目标运算空间,包括:
10、基于所述目标节点和第一映射表,确定与所述目标身份信息对应的目标硬件资源,及支持所述目标多任务处理模型运行的目标运算空间;
11、通过检查指令,确定所述目标多任务处理模型的各部分数据应用的目标子运算空间。
12、在一可实施方式中,在所述接收目标多任务处理模型启动服务的申请指令之前,还包括:
13、根据所述目标多任务处理模型启动服务的初始申请指令,加载所述目标多任务处理模型的数据至所述中心处理器的存储空间;
14、将所述目标多任务处理模型分配给目标节点,并将所述目标多任务处理模型与所述目标节点之间的映射关系记录至第二映射表。
15、在一可实施方式中,在所述接收目标多任务处理模型启动服务的申请指令之前,还包括:
16、通过目标节点,将目标硬件资源分配给所述目标多任务处理模型,并接收所述目标硬件资源反馈的目标运算空间;
17、将所述目标多任务处理模型的数据,从所述存储空间复制至所述目标运算空间;
18、将所述目标多任务处理模型与所述目标运算空间之间的映射关系、所述目标多任务处理模型的各部分数据所应用目标子运算空间的信息记录至所述第一映射表。
19、在一可实施方式中,在所述确定与所述目标多任务处理模型对应的目标硬件资源中目标运算空间之后,还包括:
20、接收所述目标多任务处理模型结束服务的关闭指令;
21、根据所述关闭指令,在所述第一映射表和第二映射表内删除与所述目标多任务处理模型相关的映射关系,以及删除所述目标运算空间内相关的数据。
22、在一可实施方式中,在所述确定与所述目标多任务处理模型对应的目标硬件资源中的目标运算空间之后,还包括:
23、运行所述目标多任务处理模型;
24、若检测到所述目标多任务处理模型未运行,且未运行时间满足时间阈值,则在所述第一映射表和第二映射表内删除与所述目标多任务处理模型相关的映射关系,以及删除所述目标运算空间内相关的数据。
25、根据本公开的第二方面,提供了一种资源调度系统,所述系统包括:中央处理器、目标节点以及目标硬件资源,其中,
26、所述中央处理器,用于接收目标多任务处理模型启动服务的申请指令,根据所述申请指令,确定与所述目标多任务处理模型对应的目标节点,并将所述申请指令发送至所述目标节点;
27、所述目标节点,用于在接收所述申请指令之后,根据第一映射表,确定与所述目标多任务处理模型对应的目标硬件资源中的目标运算空间,其中,所述第一映射表包含有多任务处理模型与硬件资源中运算空间之间的映射关系,所述目标节点配置有第一映射表;
28、所述中央处理器,还用于根据所述目标节点反馈的目标运算空间,通过检查指令,确定所述目标多任务处理模型的各部分数据应用的目标子运算空间。
29、在一可实施方式中,还包括:
30、所述中央处理器,还用于根据目标多任务处理模型启动服务的初始申请指令,加载所述目标多任务处理模型的数据至所述中心处理器的存储空间;将所述初始申请指令发送至分配到所述目标多任务处理模型的目标节点,并将所述目标多任务处理模型与所述目标节点之间的映射关系记录至第二映射表;其中,所述第二映射表包含有多任务处理模型与节点之间的映射关系;
31、所述目标节点,用于在接收所述中央处理器发送的初始申请指令之后,将目标硬件资源分配给所述目标多任务处理模型,并将所述初始申请指令发送至所述目标硬件资源;
32、所述目标硬件资源,用于在接收所述目标节点发送的初始申请指令之后,分配目标运算空间给所述目标多任务处理模型,并将所述目标运算空间反馈至所述目标节点;
33、所述目标节点,还用于在接收到所述目标硬件资源反馈的目标运算空间之后,将所述目标多任务处理模型与所述目标运算空间之间的映射关系记录至所述第一映射表,并将所述目标运算空间发送至所述中央处理器;
34、所述中央处理器,还用于根据所述目标节点反馈的目标硬件资源中的目标运算空间,经由所述目标节点将所述目标多任务处理模型的数据,从存储空间复制至所述目标运算空间;
35、所述目标硬件资源,还用于将所述目标多任务处理模型的各部分数据所应用的目标子运算空间的信息反馈至所述目标节点,并经由所述目标节点记录至所述第一映射表。
36、根据本公开的第三方面,提供了一种资源调度装置,所述装置包括:
37、指令接收模块,用于接收目标多任务处理模型启动服务的申请指令,其中,所述申请指令用于申请支持所述目标多任务处理模型运行所需硬件资源的运算空间;
38、节点确定模块,用于基于所述申请指令,确定与所述目标多任务处理模型对应的目标节点,其中,所述目标节点包含至少一个硬件资源;
39、资源确定模块,用于基于所述目标节点和第一映射表,确定与所述目标多任务处理模型对本文档来自技高网...
【技术保护点】
1.一种资源调度方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于所述申请指令,确定与所述目标多任务处理模型对应的目标节点,包括:
3.根据权利要求2所述的方法,所述基于所述目标节点和第一映射表,确定与所述目标多任务处理模型对应的目标硬件资源中的目标运算空间,包括:
4.根据权利要求1所述的方法,在所述接收目标多任务处理模型启动服务的申请指令之前,还包括:
5.根据权利要求4所述的方法,在所述接收目标多任务处理模型启动服务的申请指令之前,还包括:
6.根据权利要求1所述的方法,在所述确定与所述目标多任务处理模型对应的目标硬件资源中目标运算空间之后,还包括:
7.根据权利要求1所述的方法,在所述确定与所述目标多任务处理模型对应的目标硬件资源中的目标运算空间之后,还包括:
8.一种资源调度系统,所述系统包括:中央处理器、目标节点以及目标硬件资源,其中,
9.根据权利要求8所述的系统,还包括:
10.一种资源调度装置,所述装置包括:
【技术特征摘要】
1.一种资源调度方法,所述方法包括:
2.根据权利要求1所述的方法,所述基于所述申请指令,确定与所述目标多任务处理模型对应的目标节点,包括:
3.根据权利要求2所述的方法,所述基于所述目标节点和第一映射表,确定与所述目标多任务处理模型对应的目标硬件资源中的目标运算空间,包括:
4.根据权利要求1所述的方法,在所述接收目标多任务处理模型启动服务的申请指令之前,还包括:
5.根据权利要求4所述的方法,在所述接收目标多任务处理模型启...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。