基于MLA的稀疏LLM的数据并行处理系统及方法技术方案

技术编号：45747794 阅读：17 留言：0更新日期：2025-07-08 21:39

本公开涉及一种基于MLA的稀疏LLM的数据并行处理系统及方法。所述系统包括：输入数据切分组件，将输入数据进行切分；数据并行转发组件，将所切分出的微批次数据并行分配给各自拥有完整MLA模块的数据处理设备；以及多个并行数据处理设备，每个数据处理设备利用其基于所拥有完整MLA模块而具备的一份完整的注意力权重和缓存结构，利用本地生成的KV值对所获得微批次数据在本地进行注意力计算处理。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及计算机信息处理领域，具体而言，涉及一种大基于mla的稀疏llm的数据并行处理系统及方法。

技术介绍

1、大语言模型推理引擎往往会接收到大量用户请求，而大语言模型推理通常需要大量的计算资源，但是硬件资源有限，无法同时处理所有请求。针对此，大语言模型（llm）deepseek-v3采用两大创新架构：多头潜在注意力机制（mla, multi-head latentattention）和deepseek moe (deepseekmixture of experts)混合专家系统，其671b总参数与37b激活参数的规模对分布式推理提出全新挑战。然而，模型规模的不断攀升也带来了更高的硬件与计算开销，尤其在推理（inference）阶段，部署大模型面临很多挑战。首先是内存占用巨大。当模型参数达到千亿级规模时，单台gpu（例如80gb显存）难以容纳全部参数，加之推理中需要保存key/value缓存（kv cache）等中间结果，显存消耗与模型规模几乎线性增长。其次是推理通信瓶颈。在多卡或多机并行环境中，节点之间的数据交换会显著影响推理速度，...

【技术保护点】

1.一种基于MLA的稀疏LLM的数据并行处理系统，包括：

2.如权利要求1所述的基于MLA的稀疏LLM的数据并行处理系统，还包括：

3.如权利要求1或2所述的基于MLA的稀疏LLM的数据并行处理系统，还包括：

4.如权利要求3所述的基于MLA的稀疏LLM的数据并行处理系统，其中所述专家模型路由调整组件对所有专家模型的当前负载进行统计，并计算每个专家模型的当前负载在整体负载中的权重，并对预定数量的排序最高的专家模型分配预留数据处理设备。

5.如权利要求1或2所述的基于MLA的稀疏LLM的数据并行处理系统，还包括：

<...

【技术特征摘要】

1.一种基于mla的稀疏llm的数据并行处理系统，包括：

2.如权利要求1所述的基于mla的稀疏llm的数据并行处理系统，还包括：

3.如权利要求1或2所述的基于mla的稀疏llm的数据并行处理系统，还包括：

4.如权利要求3所述的基于mla的稀疏llm的数据并行处理系统，其中所述专家模型路由调整组件对所有专家模型的当前负载进行统计，并计算每个专家模型的当前负载在整体负载中的权重，并对预定数量的排序最高的专家模型分配预留数据处理设备。

5.如权利要求1或2所述的基于mla的稀疏llm的数据并行...

【专利技术属性】
技术研发人员：廖星宇，朱平，张文骁，郑泽康，
申请(专利权)人：北京硅基流动科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人