推理优化方法、优化装置、设备、存储介质和程序产品制造方法及图纸

技术编号:43928538 阅读:9 留言:0更新日期:2025-01-07 21:24
本公开提供了一种推理优化方法、优化装置、设备、存储介质和程序产品,涉及机器学习技术领域。其中,模型即服务的推理优化方法包括:响应于接收到的多个用户调用多个微调大模型推理的调用请求,生成第一请求集合和第二请求集合,第一请求集合对应于基础大模型的推理,第二请求集合对应于微调大模型的推理;基于共享冻结参数对第一请求集合进行推理得到第一批处理结果,基于非共享参数对第二请求集合进行推理得到第二批处理结果;合并第一批处理结果和第二批处理结果得到目标结果,将目标结果反馈至多个用户。通过本公开的技术方案,通过使不同租户共享冻结的参数进行推理任务的批处理,减少多租户大模型的GPU内存资源使用量,降低推理成本。

【技术实现步骤摘要】

本公开涉及机器学习,尤其涉及一种模型即服务的推理优化方法、一种模型即服务的推理优化装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品。


技术介绍

1、随着大模型技术的发展,应用场景逐渐从通用场景向行业定制化场景发展,为了节省不同行业用户微调和使用定制化大模型的成本,越来越多的云计算厂商开始提供maas(model as a service,模型即服务)服务,其中,大模型推理是maas服务的一个关键业务,但由于大模型参数量巨大,其推理时延较长,因此可以使用gpu(graphics processingunit,图形处理单元)等加速器来处理,然而,gpu内存等资源有限,在多个租户共享相同的云计算厂商资源的云计算多租户场景中,由于需要单独为每个用户在gpu系统中维护完整的定制大模型进行推理,导致gpu内存的开销较大、成本较高。

2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路>

1、本公开的本文档来自技高网...

【技术保护点】

1.一种模型即服务的推理优化方法,其特征在于,应用于服务端,包括:

2.根据权利要求1所述的模型即服务的推理优化方法,其特征在于,在响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理之前,还包括:

3.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,还包括:

4.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理,生成第一请求集合和第二请求集合,包括:

5.根据权利要求4所述的模型即服务的推理优化方法,其特征在于,...

【技术特征摘要】

1.一种模型即服务的推理优化方法,其特征在于,应用于服务端,包括:

2.根据权利要求1所述的模型即服务的推理优化方法,其特征在于,在响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理之前,还包括:

3.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,还包括:

4.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理,生成第一请求集合和第二请求集合,包括:

5.根据权利要求4所述的模型即服务的推理优化方法,其特征在于,所述调用请求还包括用户输入的文本数据,基于所述基础大模型标识相同的所述调用请求生成共享参数批,基于所述微调大模型标识相同的所述调用请求生成非共享参数批,包括:

6.根据权利要求1所述的模型即服务的推理优化方法,其特征在于,在基于所述基础大模型的共享冻结参数对所述第一请求集合进行推理得到第一批处理结果,基于所述微调大模型的非共享参数对所述第二请求集合进行推理得到第二批处理结果之前,还包括:

7.根据权利要求3所述的模型即服务的推理优化方法,其特征...

【专利技术属性】
技术研发人员:崔恩放韦茜高玥
申请(专利权)人:中国电信股份有限公司技术创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1