推理服务方法、处理装置、设备、存储介质和程序产品制造方法及图纸

技术编号：45055135 阅读：22 留言：0更新日期：2025-04-22 17:38

本公开提供了一种推理服务方法、处理装置、设备、存储介质和程序产品，涉及人工智能技术领域。其中，大模型推理服务方法包括：监测所述多个解码节点的第一算力资源以及监测预填充节点与解码节点之间的迁移链路的性能指标；响应于大模型推理任务，将推理任务分配至多个预填充节点，生成对应的键值缓存KV Cache数据；基于第一算力资源和/或性能指标对KV Cache数据进行分片处理，得到KV Cache分片；向多个解码节点迁移KV Cache分片，以由多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对KV Cache分片进行解码操作，得到推理结果。通过本公开的技术方案，能够提升KV Cache数据的迁移效率和迁移稳定性，结合均衡机制能够提升大模型推理任务的推理效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及一种大模型推理服务方法、一种大模型推理服务装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品。

技术介绍

1、大语言模型(large language model，llm)在自然语言处理等诸多领域展现出了强大的性能，然而随着模型参数量的迅猛增长，其进行推理计算所需的计算资源和内存量也在急剧上升，分布式推理架构通过将模型的计算任务分配到多个计算设备(如多个gpu服务器)上进行，有效地扩展了计算资源，但实际应用中存在资源和负载分配不均衡的问题，导致影响模型的推理效率和稳定性。

2、需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的目的在于提供一种大模型推理服务方法、一种大模型推理服务装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品，至少在一定程度上克服相关技术中对物联网系统整体能源利用率不高的问题。

2、本...

【技术保护点】

1.一种大模型推理服务方法，其特征在于，包括：

2.根据权利要求1所述的大模型推理服务方法，其特征在于，由所述多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对所述KV Cache分片进行解码操作，得到推理结果，包括：

3.根据权利要求2所述的大模型推理服务方法，其特征在于，所述解码节点沿处理顺序包括多个处理层，还包括：

4.根据权利要求2所述的大模型推理服务方法，其特征在于，将所述第二分片分配给不同的所述注意力头进行并行计算，还包括：

5.根据权利要求1所述的大模型推理服务方法，其特征在于，基于所述第一算力资源和/或所述性能...

【技术特征摘要】

1.一种大模型推理服务方法，其特征在于，包括：

2.根据权利要求1所述的大模型推理服务方法，其特征在于，由所述多个解码节点基于多头并行注意力均衡机制和/或流水线并行均衡机制对所述kv cache分片进行解码操作，得到推理结果，包括：

3.根据权利要求2所述的大模型推理服务方法，其特征在于，所述解码节点沿处理顺序包括多个处理层，还包括：

4.根据权利要求2所述的大模型推理服务方法，其特征在于，将所述第二分片分配给不同的所述注意力头进行并行计算，还包括：

5.根据权利要求1所述的大模型推理服务方法，其特征在于，基于所述第一算力资源和/或所述性能指标对所述kv cache数据进行分片处理，得到kv cache分片，包括：

6.根据权利要求1所述的大模型推理服务方法，其特征在于，基于所述第一算力资源和/或所述性能指标对所述kv cache数据进行分片处理，得到kv cache分片，包括：

7.根据权利要求1所述的大模型推理服务方法，其特征在于，向所述多个解码节点迁移所述kv cache分片，包括：

8.根据权利要求7所述的大模型推理服务方法，其特征在于，基于所述性能指标确定多条所述迁移链路的优先级，包括：

9.根据权利要求8所述的大模型推理服务方法，其特征在于，基于所述网络带宽、所述网络延迟和所述丢包率计算从所述多个预填充节点到所述多个解码节点之间不同所述迁移链路的网络质量，包括：

【专利技术属性】
技术研发人员：韩洋，
申请(专利权)人：中国电信股份有限公司技术创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人