【技术实现步骤摘要】
本公开涉及计算机信息处理领域,具体而言,涉及一种大基于mla的稀疏llm的数据并行处理系统及方法。
技术介绍
1、大语言模型推理引擎往往会接收到大量用户请求,而大语言模型推理通常需要大量的计算资源,但是硬件资源有限,无法同时处理所有请求。针对此,大语言模型(llm)deepseek-v3采用两大创新架构:多头潜在注意力机制(mla, multi-head latentattention)和deepseek moe (deepseekmixture of experts)混合专家系统,其671b总参数与37b激活参数的规模对分布式推理提出全新挑战。然而,模型规模的不断攀升也带来了更高的硬件与计算开销,尤其在推理(inference)阶段,部署大模型面临很多挑战。首先是内存占用巨大。当模型参数达到千亿级规模时,单台gpu(例如80gb显存)难以容纳全部参数,加之推理中需要保存key/value缓存(kv cache)等中间结果,显存消耗与模型规模几乎线性增长。其次是推理通信瓶颈。在多卡或多机并行环境中,节点之间的数据交换会显著影响推理速度,
...【技术保护点】
1.一种基于MLA的稀疏LLM的数据并行处理系统,包括:
2.如权利要求1所述的基于MLA的稀疏LLM的数据并行处理系统,还包括:
3.如权利要求1或2所述的基于MLA的稀疏LLM的数据并行处理系统,还包括:
4.如权利要求3所述的基于MLA的稀疏LLM的数据并行处理系统,其中所述专家模型路由调整组件对所有专家模型的当前负载进行统计,并计算每个专家模型的当前负载在整体负载中的权重,并对预定数量的排序最高的专家模型分配预留数据处理设备。
5.如权利要求1或2所述的基于MLA的稀疏LLM的数据并行处理系统,还包括:
< ...【技术特征摘要】
1.一种基于mla的稀疏llm的数据并行处理系统,包括:
2.如权利要求1所述的基于mla的稀疏llm的数据并行处理系统,还包括:
3.如权利要求1或2所述的基于mla的稀疏llm的数据并行处理系统,还包括:
4.如权利要求3所述的基于mla的稀疏llm的数据并行处理系统,其中所述专家模型路由调整组件对所有专家模型的当前负载进行统计,并计算每个专家模型的当前负载在整体负载中的权重,并对预定数量的排序最高的专家模型分配预留数据处理设备。
5.如权利要求1或2所述的基于mla的稀疏llm的数据并行...
【专利技术属性】
技术研发人员:廖星宇,朱平,张文骁,郑泽康,
申请(专利权)人:北京硅基流动科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。