适用于大模型加速芯片的静态图分布式推理系统及方法技术方案

技术编号：46591725 阅读：1 留言：0更新日期：2025-10-10 21:25

本发明专利技术公开了一种适用于大模型加速芯片的静态图分布式推理系统及方法，该系统包括分布式编译框架子系统，用于：将大模型的权重和算子转换到自定义npu_lm；对大模型做量化处理，并保存量化系数；按张量并行拆分模型和量化系数，再按子图进一步拆分；循环对所有子图编译，并进行编译信息保存；分布式推理框架子系统，用于：通过分布式调度器负责把编译后的子图分到多个加速芯片上；对单加速芯片进行地址划分；根据划分好的地址进行模型加载，并结合多请求调度器进行分布式推理；其有益效果是：本发明专利技术具备良好的动态扩展性，同时兼顾性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型推理，具体涉及一种适用于大模型加速芯片的静态图分布式推理系统及方法。

技术介绍

1、随着deep seek的爆火，长思维链导致算力需求从训练转向推理，推理框架性能提升需求更迫切。传统的推理框架基本分为两类，以vllm、sglang为代表的基于pytorch动态图的推理框架，另一类是以tensorrt-llm、mindie为代表的硬件产商的静态图推理框架。动态图可以在推理时灵活决定部署规模、多机多卡专家分配等，但是没有充分发挥硬件性能。静态图通常性能更好，但需要提前编译，所以部署规模、专家分配方式等编译好了，在部署的时候就无法改变了，像专家并行负载均衡等优化策略就无法使用，从而限制了推理性能。

2、即，现有pytorch动态图推理框架存在以下缺陷：

3、性能优化不足：vllm、sglang依赖于pytorch原生算子和动态图机制，尽管通过自定义cuda内核(如flashattention、分页注意力)优化性能，但在算子融合、内存访问模式优化等方面仍不如以tensorrt-llm为例的硬件厂商推理...

【技术保护点】

1.一种适用于大模型加速芯片的静态图分布式推理系统，其特征在于，所述系统包括分布式编译框架子系统和分布式推理框架子系统；

2.如权利要求1所述的系统，其特征在于，所述量化处理包括对大模型做权重量化、KVCache量化和激活量化。

3.如权利要求1所述的系统，其特征在于，所述再按子图进一步拆分包括根据功能的不同，对子图进行细粒度拆分。

4.如权利要求1至3中任一所述的系统，其特征在于，单个子图的编译流程包括：

5.如权利要求4所述的系统，其特征在于，多个加速芯片之间做流水线并行和/或专家并行；其中，流水线并行和专家并行数量用户可以灵活设置，并...

【技术特征摘要】

1.一种适用于大模型加速芯片的静态图分布式推理系统，其特征在于，所述系统包括分布式编译框架子系统和分布式推理框架子系统；

2.如权利要求1所述的系统，其特征在于，所述量化处理包括对大模型做权重量化、kvcache量化和激活量化。

3.如权利要求1所述的系统，其特征在于，所述再按子图进一步拆分包括根据功能的不同，对子图进行细粒度拆分。

4.如权利要求1至3中任一所述的系统，其特征在于，单个子图的编译流程包括：

5.如权利要求4所述的系统，其特征在于，多个加速芯片之间做流水线并行和/或专家并行；其中，流水线并行和专家并行数量用户可以灵活设置，并且无需重复编译。

6.如权利要求5所述的系统，...

【专利技术属性】
技术研发人员：赵武金，张祥建，宋莉莉，
申请(专利权)人：北京谦合益邦云信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人