【技术实现步骤摘要】
本公开涉及机器学习,尤其涉及一种模型即服务的推理优化方法、一种模型即服务的推理优化装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
技术介绍
1、随着大模型技术的发展,应用场景逐渐从通用场景向行业定制化场景发展,为了节省不同行业用户微调和使用定制化大模型的成本,越来越多的云计算厂商开始提供maas(model as a service,模型即服务)服务,其中,大模型推理是maas服务的一个关键业务,但由于大模型参数量巨大,其推理时延较长,因此可以使用gpu(graphics processingunit,图形处理单元)等加速器来处理,然而,gpu内存等资源有限,在多个租户共享相同的云计算厂商资源的云计算多租户场景中,由于需要单独为每个用户在gpu系统中维护完整的定制大模型进行推理,导致gpu内存的开销较大、成本较高。
2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
>1、本公开的本文档来自技高网...
【技术保护点】
1.一种模型即服务的推理优化方法,其特征在于,应用于服务端,包括:
2.根据权利要求1所述的模型即服务的推理优化方法,其特征在于,在响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理之前,还包括:
3.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,还包括:
4.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理,生成第一请求集合和第二请求集合,包括:
5.根据权利要求4所述的模型即服务的推理优
...【技术特征摘要】
1.一种模型即服务的推理优化方法,其特征在于,应用于服务端,包括:
2.根据权利要求1所述的模型即服务的推理优化方法,其特征在于,在响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理之前,还包括:
3.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,还包括:
4.根据权利要求2所述的模型即服务的推理优化方法,其特征在于,响应于接收到的多个用户调用多个微调大模型推理的调用请求,对所述调用请求进行预处理,生成第一请求集合和第二请求集合,包括:
5.根据权利要求4所述的模型即服务的推理优化方法,其特征在于,所述调用请求还包括用户输入的文本数据,基于所述基础大模型标识相同的所述调用请求生成共享参数批,基于所述微调大模型标识相同的所述调用请求生成非共享参数批,包括:
6.根据权利要求1所述的模型即服务的推理优化方法,其特征在于,在基于所述基础大模型的共享冻结参数对所述第一请求集合进行推理得到第一批处理结果,基于所述微调大模型的非共享参数对所述第二请求集合进行推理得到第二批处理结果之前,还包括:
7.根据权利要求3所述的模型即服务的推理优化方法,其特征...
【专利技术属性】
技术研发人员:崔恩放,韦茜,高玥,
申请(专利权)人:中国电信股份有限公司技术创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。