【技术实现步骤摘要】
本专利技术涉及大模型推理,具体涉及一种适用于大模型加速芯片的静态图分布式推理系统及方法。
技术介绍
1、随着deep seek的爆火,长思维链导致算力需求从训练转向推理,推理框架性能提升需求更迫切。传统的推理框架基本分为两类,以vllm、sglang为代表的基于pytorch动态图的推理框架,另一类是以tensorrt-llm、mindie为代表的硬件产商的静态图推理框架。动态图可以在推理时灵活决定部署规模、多机多卡专家分配等,但是没有充分发挥硬件性能。静态图通常性能更好,但需要提前编译,所以部署规模、专家分配方式等编译好了,在部署的时候就无法改变了,像专家并行负载均衡等优化策略就无法使用,从而限制了推理性能。
2、即,现有pytorch动态图推理框架存在以下缺陷:
3、性能优化不足:vllm、sglang依赖于pytorch原生算子和动态图机制,尽管通过自定义cuda内核(如flashattention、分页注意力)优化性能,但在算子融合、内存访问模式优化等方面仍不如以tensorrt-llm为例的硬件厂商推理
...【技术保护点】
1.一种适用于大模型加速芯片的静态图分布式推理系统,其特征在于,所述系统包括分布式编译框架子系统和分布式推理框架子系统;
2.如权利要求1所述的系统,其特征在于,所述量化处理包括对大模型做权重量化、KVCache量化和激活量化。
3.如权利要求1所述的系统,其特征在于,所述再按子图进一步拆分包括根据功能的不同,对子图进行细粒度拆分。
4.如权利要求1至3中任一所述的系统,其特征在于,单个子图的编译流程包括:
5.如权利要求4所述的系统,其特征在于,多个加速芯片之间做流水线并行和/或专家并行;其中,流水线并行和专家并行数量
...【技术特征摘要】
1.一种适用于大模型加速芯片的静态图分布式推理系统,其特征在于,所述系统包括分布式编译框架子系统和分布式推理框架子系统;
2.如权利要求1所述的系统,其特征在于,所述量化处理包括对大模型做权重量化、kvcache量化和激活量化。
3.如权利要求1所述的系统,其特征在于,所述再按子图进一步拆分包括根据功能的不同,对子图进行细粒度拆分。
4.如权利要求1至3中任一所述的系统,其特征在于,单个子图的编译流程包括:
5.如权利要求4所述的系统,其特征在于,多个加速芯片之间做流水线并行和/或专家并行;其中,流水线并行和专家并行数量用户可以灵活设置,并且无需重复编译。
6.如权利要求5所述的系统,...
【专利技术属性】
技术研发人员:赵武金,张祥建,宋莉莉,
申请(专利权)人:北京谦合益邦云信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。