【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及一种大模型推理服务方法、一种大模型推理服务装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
技术介绍
1、大语言模型(large language model,llm)在自然语言处理等诸多领域展现出了强大的性能,然而随着模型参数量的迅猛增长,其进行推理计算所需的计算资源和内存量也在急剧上升,分布式推理架构通过将模型的计算任务分配到多个计算设备(如多个gpu服务器)上进行,有效地扩展了计算资源,但实际应用中存在资源和负载分配不均衡的问题,导致影响模型的推理效率和稳定性。
2、需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、本公开的目的在于提供一种大模型推理服务方法、一种大模型推理服务装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品,至少在一定程度上克服相关技术中对物联网系统整体能源利用率不高的问题。
2、本
...【技术保护点】
1.一种大模型推理服务方法,其特征在于,包括:
2.根据权利要求1所述的大模型推理服务方法,其特征在于,由所述多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对所述KV Cache分片进行解码操作,得到推理结果,包括:
3.根据权利要求2所述的大模型推理服务方法,其特征在于,所述解码节点沿处理顺序包括多个处理层,还包括:
4.根据权利要求2所述的大模型推理服务方法,其特征在于,将所述第二分片分配给不同的所述注意力头进行并行计算,还包括:
5.根据权利要求1所述的大模型推理服务方法,其特征在于,基于所述第一算
...【技术特征摘要】
1.一种大模型推理服务方法,其特征在于,包括:
2.根据权利要求1所述的大模型推理服务方法,其特征在于,由所述多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对所述kv cache分片进行解码操作,得到推理结果,包括:
3.根据权利要求2所述的大模型推理服务方法,其特征在于,所述解码节点沿处理顺序包括多个处理层,还包括:
4.根据权利要求2所述的大模型推理服务方法,其特征在于,将所述第二分片分配给不同的所述注意力头进行并行计算,还包括:
5.根据权利要求1所述的大模型推理服务方法,其特征在于,基于所述第一算力资源和/或所述性能指标对所述kv cache数据进行分片处理,得到kv cache分片,包括:
6.根据权利要求1所述的大模型推理服务方法,其特征在于,基于所述第一算力资源和/或所述性能指标对所述kv cache数据进行分片处理,得到kv cache分片,包括:
7.根据权利要求1所述的大模型推理服务方法,其特征在于,向所述多个解码节点迁移所述kv cache分片,包括:
8.根据权利要求7所述的大模型推理服务方法,其特征在于,基于所述性能指标确定多条所述迁移链路的优先级,包括:
9.根据权利要求8所述的大模型推理服务方法,其特征在于,基于所述网络带宽、所述网络延迟和所述丢包率计算从所述多个预填充节点到所述多个解码节点之间不同所述迁移链路的网络质量,包括:
【专利技术属性】
技术研发人员:韩洋,
申请(专利权)人:中国电信股份有限公司技术创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。