基于无规则稀疏模型的加速方法、装置、电子设备和介质制造方法及图纸

技术编号:45876006 阅读:15 留言:0更新日期:2025-07-19 11:35
本公开的实施例公开了基于无规则稀疏模型的加速方法、装置、电子设备和介质。该方法的一具体实施方式包括:将稀疏模型输入到目标编译器中;在图层中间表示中,将稀疏模型的稀疏权重矩阵拆分为稀疏子块,得到拆分后的稀疏权重矩阵;基于稀疏算子性能模型,生成拆分后的稀疏权重矩阵中各个稀疏子块的属性信息;在块层中间表示中,根据各个稀疏子块的属性信息,对各个稀疏子块进行融合处理;在算子层中间表示中,根据各个稀疏块对应的属性信息,对各个稀疏块与计算单元进行映射,得到映射结果;根据映射结果,生成对应稀疏模型的处理任务,以及执行处理任务。该实施方式通过多层优化进而实现了端到端优化,突破了传统无规则稀疏加速设计的收益边界。

【技术实现步骤摘要】

本公开的实施例涉及计算机技术,基于无规则稀疏模型的加速方法、装置、电子设备和介质


技术介绍

1、随着深度神经网络(dnn)在边缘计算与大语言模型(llm)中的广泛应用,加速无规则稀疏模型的处理效率成为关键挑战。目前主要通过以下两类方法实现稀疏模型加速:稀疏格式静态优化和编译导向的稀疏感知优化。上述稀疏格式静态优化通常是指采用固定稀疏编码格式(如csr、coo)与单一计算范式(如cusparse的纯稀疏计算核),通过数据重排或分块策略提升规则性。上述编译导向的稀疏感知优化通常是指利用传统框架(如tvm-sparse、sparsetir)实现多格式混合编码与算子融合,但仍依赖静态稀疏块划分策略。

2、然而,以上方式在处理无规则稀疏模型(如llama-2的稀疏权重矩阵)时常会存在如下技术问题:稀疏加速方案(如sputnik、aspt)未对不同稀疏率区域的稀疏子块性能进行建模,导致在无规则分布场景中无法精准识别适合稀疏计算或密集计算的子块,造成计算资源浪费;传统稀疏编码(如csr、coo)对无规则分布矩阵采用统一格式,导致稀疏子块因冗余存储而内存效率低本文档来自技高网...

【技术保护点】

1.一种基于无规则稀疏模型的加速方法,包括:

2.根据权利要求1所述的方法,其中,所述基于稀疏算子性能模型,生成所述拆分后的稀疏权重矩阵中各个稀疏子块的属性信息,包括:

3.根据权利要求2所述的方法,其中,所述基于所述实际执行时间数据,生成稀疏算子性能模型,包括:

4.根据权利要求1所述的方法,其中,所述在所述块层中间表示中,根据所述各个稀疏子块的属性信息,对所述各个稀疏子块进行融合处理,得到融合后的稀疏权重矩阵,包括:

5.根据权利要求4所述的方法,其中,所述方法还包括:

6.根据权利要求1所述的方法,其中,所述在所述算子层中...

【技术特征摘要】

1.一种基于无规则稀疏模型的加速方法,包括:

2.根据权利要求1所述的方法,其中,所述基于稀疏算子性能模型,生成所述拆分后的稀疏权重矩阵中各个稀疏子块的属性信息,包括:

3.根据权利要求2所述的方法,其中,所述基于所述实际执行时间数据,生成稀疏算子性能模型,包括:

4.根据权利要求1所述的方法,其中,所述在所述块层中间表示中,根据所述各个稀疏子块的属性信息,对所述各个稀疏子块进行融合处理,得到融合后的稀疏权重矩阵,包括...

【专利技术属性】
技术研发人员:刘方鑫黄世远蒋力
申请(专利权)人:上海期智研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1