一种模型部署方法、装置、设备、存储介质和产品制造方法及图纸

技术编号:46571918 阅读:1 留言:0更新日期:2025-10-10 21:17
本申请公开了一种模型部署方法、装置、设备、存储介质和产品,涉及多元异构计算系统技术领域,依据混合专家模型的分布式推理任务信息以及异构计算系统的性能信息,确定出每个专家模型在其对应的异构计算节点上执行推理任务的总耗时。基于负载均衡原则,对所有专家模型的总耗时、通信耗时和计算耗时进行分析,以确定出压缩倍率;按照模型压缩策略对各专家模型进行迭代压缩,以得到满足误差要求以及满足压缩倍率要求的各压缩后的专家模型。将各压缩后的专家模型部署在对应的异构计算节点。通过对专家模型进行压缩,并且基于压缩倍率确定专家模型的压缩程度,从而使不同异构算力在专家运算层的计算耗时尽量均衡,提升了硬件资源的利用率。

【技术实现步骤摘要】

本申请涉及多元异构计算系统,尤其涉及一种模型部署方法、装置、设备、存储介质和产品


技术介绍

1、近年来,多元异构计算系统的概念逐渐被提出。在这种系统中,具备不同计算性能的异构算力即异构计算节点被集成到同一个分布式计算环境中,并协同完成混合专家模型的分布式推理任务。混合专家(mixture of experts,moe)是一种模型并行化的方法,它通过将大模型划分为多个专家(experts)模型,并将每个专家模型部署在不同的异构计算节点,从而提升训练与推理效率。

2、由于异构计算系统中不同异构计算节点的性能存在差异,通信能力也存在区别,会导致不同异构计算节点下专家模型执行计算任务的结束时间不一致。专家模型并行计算的过程需要等待最慢的专家模型计算完毕,这样会导致硬件资源的利用率偏低。

3、可见,如何提高硬件资源的利用率,是本领域技术人员需要解决的问题。


技术实现思路

1、本申请提供了一种模型部署方法、装置、设备、存储介质和产品,以至少解决相关技术中硬件资源的利用率偏低的问题。

本文档来自技高网...

【技术保护点】

1.一种模型部署方法,其特征在于,包括:

2.根据权利要求1所述的模型部署方法,其特征在于,所述分布式推理任务信息包括各专家模型的网络结构、输入输出尺寸、每轮推理被激活的专家模型的数量、专家模型与异构计算节点的对应关系;

3.根据权利要求2所述的模型部署方法,其特征在于,根据所述分布式推理任务信息包括的输入尺寸和输出尺寸、所述性能信息包含的上行带宽、下行带宽和时延信息,以及每轮推理被激活的专家模型的数量,确定出通信耗时,包括:

4.根据权利要求1所述的模型部署方法,其特征在于,基于负载均衡原则,对所有所述专家模型的总耗时、通信耗时和计算耗时进行分析,以...

【技术特征摘要】

1.一种模型部署方法,其特征在于,包括:

2.根据权利要求1所述的模型部署方法,其特征在于,所述分布式推理任务信息包括各专家模型的网络结构、输入输出尺寸、每轮推理被激活的专家模型的数量、专家模型与异构计算节点的对应关系;

3.根据权利要求2所述的模型部署方法,其特征在于,根据所述分布式推理任务信息包括的输入尺寸和输出尺寸、所述性能信息包含的上行带宽、下行带宽和时延信息,以及每轮推理被激活的专家模型的数量,确定出通信耗时,包括:

4.根据权利要求1所述的模型部署方法,其特征在于,基于负载均衡原则,对所有所述专家模型的总耗时、通信耗时和计算耗时进行分析,以确定出压缩倍率,包括:

5.根据权利要求4所述的模型部署方法,其特征在于,将所有专家模型的总耗时与通信耗时进行比较,以确定出最优负载均衡耗时,包括:

6.根据权利要求4所述的模型部署方法,其特征在于,根据所述最优负载均衡耗时以及所述目标专家模型的计算耗时和总耗时,确定出压缩倍率包括:

7.根据权利要求4所述的模型部署方法,其特征在于,按照模型压缩策略对各所述专家模型进行迭代压缩,以得到满足误差要求以及满足...

【专利技术属性】
技术研发人员:唐轶男郭振华李仁刚赵雅倩王丽高开王立曹芳
申请(专利权)人:山东海量信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1