模型任务的分配方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40598910 阅读:18 留言:0更新日期:2024-03-12 22:02
本申请提供一种模型任务的分配方法、装置、电子设备及存储介质,该方法获取当前模型任务,并确定当前模型任务对应的目标模型;确定各个GPU设备的状态信息;其中,所述GPU设备对应的内存中包括多个模型,且所述GPU设备对应的显存中至少有一个缓存模型,所述缓存模型为所述多个模型中的模型;基于所述目标模型和所述状态信息从多个GPU设备中确定目标GPU设备;将所述当前模型任务分配到所述目标GPU设备,从而通过各个GPU设备的状态信息可以准确的将当前模型任务分配到目标GPU设备中,避免出现部分GPU设备利用率低,模型切换延时等问题。

【技术实现步骤摘要】

本申请涉及模型,尤其涉及一种模型任务的分配方法、装置、电子设备及存储介质


技术介绍

1、本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、gpu计算是指使用图形处理器(gpu)进行计算任务的一种方法。与传统的中央处理器(cpu)相比,gpu具有更强大的并行计算能力,适用于处理大规模数据和复杂计算任务。

3、目前,相关技术方案中,利用gpu计算技术时,先将深度学习模型的参数和输入数据移入到gpu存储(即显存)中,再利用gpu设备的并行计算能力将大量计算并行化,提高处理速度。但是,由于单个gpu设备的显存的空间有限,一般单个gpu设备的显存只能部署少量深度学习模型,从而导致gpu设备的使用量随模型数量的增加而增加。特征是在一些aigc(人工智能生成内容,artificial intelligence-generated content)的应用场景下(如ai绘图),使用的模型数量较大,使所需的gpu设备数量增大。而用户对不同模型的使用频率也有较大差异,导致部分gpu设备本文档来自技高网...

【技术保护点】

1.一种模型任务的分配方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述状态信息包括模型的缓存信息和运行信息;基于所述目标模型和所述状态信息从多个GPU设备中确定目标GPU设备,具体包括:

3.根据权利要求2所述的方法,其特征在于,第一GPU设备的优先度大于第二GPU设备大于第三GPU设备;所述第一GPU设备对应的缓存模型为目标模型,且所述缓存模型未运行;所述第二GPU设备对应的缓存模型不为目标模型,且所述缓存模型未运行;所述第三GPU设备对应的缓存模型为目标模型,且所述缓存模型正在运行。

4.根据权利要求1所述的方法,其特征在于...

【技术特征摘要】

1.一种模型任务的分配方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述状态信息包括模型的缓存信息和运行信息;基于所述目标模型和所述状态信息从多个gpu设备中确定目标gpu设备,具体包括:

3.根据权利要求2所述的方法,其特征在于,第一gpu设备的优先度大于第二gpu设备大于第三gpu设备;所述第一gpu设备对应的缓存模型为目标模型,且所述缓存模型未运行;所述第二gpu设备对应的缓存模型不为目标模型,且所述缓存模型未运行;所述第三gpu设备对应的缓存模型为目标模型,且所述缓存模型正在运行。

4.根据权利要求1所述的方法,其特征在于,基于所述目标模型和所述状态信息从多个gpu设备中确定目标gpu设备,具体包括:

5.根据权利要求4所述的方法,其特征在于,在基于所述状态信息确定所述多个gpu设备中是否存在未运行缓存模型的备选gpu设备之后,还包括:

6.根据权利要求4所述的方法,其特征在于,在从所述备选gpu设备中确定是否存在未运行的缓存模型为所述目标模型的...

【专利技术属性】
技术研发人员:梁可弘甄志坚吴远泸宁苒宇
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1