模型任务的分配方法、装置、电子设备及存储介质制造方法及图纸

技术编号：40598910 阅读：5 留言：0更新日期：2024-03-12 22:02

本申请提供一种模型任务的分配方法、装置、电子设备及存储介质，该方法获取当前模型任务，并确定当前模型任务对应的目标模型；确定各个GPU设备的状态信息；其中，所述GPU设备对应的内存中包括多个模型，且所述GPU设备对应的显存中至少有一个缓存模型，所述缓存模型为所述多个模型中的模型；基于所述目标模型和所述状态信息从多个GPU设备中确定目标GPU设备；将所述当前模型任务分配到所述目标GPU设备，从而通过各个GPU设备的状态信息可以准确的将当前模型任务分配到目标GPU设备中，避免出现部分GPU设备利用率低，模型切换延时等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模型，尤其涉及一种模型任务的分配方法、装置、电子设备及存储介质。

技术介绍

1、本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、gpu计算是指使用图形处理器(gpu)进行计算任务的一种方法。与传统的中央处理器(cpu)相比，gpu具有更强大的并行计算能力，适用于处理大规模数据和复杂计算任务。

3、目前，相关技术方案中，利用gpu计算技术时，先将深度学习模型的参数和输入数据移入到gpu存储(即显存)中，再利用gpu设备的并行计算能力将大量计算并行化，提高处理速度。但是，由于单个gpu设备的显存的空间有限，一般单个gpu设备的显存只能部署少量深度学习模型，从而导致gpu设备的使用量随模型数量的增加而增加。特征是在一些aigc(人工智能生成内容，artificial intelligence-generated content)的应用场景下(如ai绘图)，使用的模型数量较大，使所需的gpu设备数量增大。而用户对不同模型的使用频率也有较大差异，导致部分gpu设备利用率低，浪费算力资源。

技术实现思路

1、有鉴于此，本申请的目的在于提出一种模型任务的分配方法、装置、电子设备及存储介质，用以解决或部分解决上述
技术介绍
中的问题。

2、基于上述目的，本申请提供了一种模型任务的分配方法，包括：

3、获取当前模型任务，并确定当前模型任务对应的目标模型；

4、确定各

5、基于所述目标模型和所述状态信息从多个gpu设备中确定目标gpu设备；

6、将所述当前模型任务分配到所述目标gpu设备。

7、基于同一专利技术构思，本申请示例性实施例还提供了一种模型任务的分配装置，包括：

8、获取模块，获取当前模型任务，并确定当前模型任务对应的目标模型；

9、第一确定模块，确定各个gpu设备的状态信息；其中，所述gpu设备对应的内存中包括多个模型，且所述gpu设备对应的显存中至少有一个缓存模型，所述缓存模型为所述多个模型中的模型；

10、第二确定模块，基于所述目标模型和所述状态信息从多个gpu设备中确定目标gpu设备；

11、分配模块，将所述当前模型任务分配到所述目标gpu设备。

12、基于同一专利技术构思，本申请示例性实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述程序时实现如上所述的模型任务的分配方法。

13、基于同一专利技术构思，本申请示例性实施例还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上所述的模型任务的分配方法。

14、基于同一专利技术构思，本申请示例性实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序由一个或多个处理器执行以使得所述处理器执行如上所述的游戏声音的调节方法。

15、从上面所述可以看出，本申请提供的模型任务的分配方法、装置、电子设备及存储介质，获取当前模型任务，并确定当前模型任务对应的目标模型；确定各个gpu设备的状态信息；其中，所述gpu设备对应的内存中包括多个模型，且所述gpu设备对应的显存中至少有一个缓存模型，所述缓存模型为所述多个模型中的模型；基于所述目标模型和所述状态信息从多个gpu设备中确定目标gpu设备；将所述当前模型任务分配到所述目标gpu设备，从而通过各个gpu设备的状态信息可以准确的将当前模型任务分配到目标gpu设备中，避免出现部分gpu设备利用率低，模型切换延时等问题，同时，将多个模型保存在gpu设备对应的内存中，使得每个gpu设备均可以从内存加载任意模型到显存中，保证了每个gpu设备均可以执行各种模型任务，为模型任务的分配提高了更多的选择机会。

本文档来自技高网...

【技术保护点】

1.一种模型任务的分配方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述状态信息包括模型的缓存信息和运行信息；基于所述目标模型和所述状态信息从多个GPU设备中确定目标GPU设备，具体包括：

3.根据权利要求2所述的方法，其特征在于，第一GPU设备的优先度大于第二GPU设备大于第三GPU设备；所述第一GPU设备对应的缓存模型为目标模型，且所述缓存模型未运行；所述第二GPU设备对应的缓存模型不为目标模型，且所述缓存模型未运行；所述第三GPU设备对应的缓存模型为目标模型，且所述缓存模型正在运行。

4.根据权利要求1所述的方法，其特征在于，基于所述目标模型和所述状态信息从多个GPU设备中确定目标GPU设备，具体包括：

5.根据权利要求4所述的方法，其特征在于，在基于所述状态信息确定所述多个GPU设备中是否存在未运行缓存模型的备选GPU设备之后，还包括：

6.根据权利要求4所述的方法，其特征在于，在从所述备选GPU设备中确定是否存在未运行的缓存模型为所述目标模型的优先GPU设备之后，还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，在获取当前模型任务之后，所述方法还包括：

10.根据权利要求1所述的方法，其特征在于，多个所述GPU设备对应相同的共享内存。

11.根据权利要求10所述的方法，其特征在于，所述GPU设备对应的缓存模型的权重数据保存在所述共享内存中。

12.一种模型任务的分配装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器执行所述程序时实现如权利要求1至11中任意一项所述的方法。

14.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行根据权利要求1至11中任一项所述的方法。

...

【技术特征摘要】

1.一种模型任务的分配方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述状态信息包括模型的缓存信息和运行信息；基于所述目标模型和所述状态信息从多个gpu设备中确定目标gpu设备，具体包括：

3.根据权利要求2所述的方法，其特征在于，第一gpu设备的优先度大于第二gpu设备大于第三gpu设备；所述第一gpu设备对应的缓存模型为目标模型，且所述缓存模型未运行；所述第二gpu设备对应的缓存模型不为目标模型，且所述缓存模型未运行；所述第三gpu设备对应的缓存模型为目标模型，且所述缓存模型正在运行。

4.根据权利要求1所述的方法，其特征在于，基于所述目标模型和所述状态信息从多个gpu设备中确定目标gpu设备，具体包括：

5.根据权利要求4所述的方法，其特征在于，在基于所述状态信息确定所述多个gpu设备中是否存在未运行缓存模型的备选gpu设备之后，还包括：

6.根据权利要求4所述的方法，其特征在于，在从所述备选gpu设备中确定是否存在未运行的缓存模型为所述目标模型的...

【专利技术属性】
技术研发人员：梁可弘，甄志坚，吴远泸，宁苒宇，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人