一种基于ARM架构的矩阵计算自适应优化方法及系统技术方案

技术编号:46571778 阅读:0 留言:0更新日期:2025-10-10 21:17
本发明专利技术公开了一种基于ARM架构的矩阵计算自适应优化方法及系统,包括:对待处理矩阵数据进行预处理;对预处理后的矩阵数据进行局部活跃度计算和热点区域识别,确定矩阵的长尾分布特征;基于矩阵的长尾分布特征和处理器信息中多级缓存容量参数,计算矩阵的最优分块大小范围,生成非对称分块方案;基于非对称分块方案,建立矩阵特征与最优分块参数的映射关系;基于非对称分块方案和映射关系,计算各分块的计算密度和内存访问模式,生成任务调度方案;基于任务调度方案,在处理器上执行矩阵计算,输出最终计算结果。本发明专利技术通过识别矩阵的长尾分布特性,实现自适应分块和异构核心调度,提高矩阵计算在ARM上的性能和能效。

【技术实现步骤摘要】

本专利技术涉及计算机科学,具体涉及一种基于arm架构的矩阵计算自适应优化方法及系统。


技术介绍

1、随着人工智能技术的快速发展,深度学习算法广泛应用于各类智能设备中,而矩阵计算作为这些算法的核心操作,直接影响系统的整体性能和能效。在资源受限的arm架构设备上高效执行矩阵运算成为一项关键技术挑战。

2、目前业界常用的矩阵计算优化方法主要包括通用矩阵乘法库(如openblas)和硬件加速库(如arm compute library)。这些方法通常采用静态分块策略,将大型矩阵分解为固定大小的子矩阵,以提高缓存利用率和并行度。例如,openblas通过strassen算法和分块技术将矩阵乘法分解为多个子矩阵运算,而arm compute library则利用neon simd指令集进行向量化计算。

3、更为先进的矩阵计算优化技术引入了自动调优机制,根据矩阵尺寸和硬件特性预先确定最优分块参数。这种方法通过离线分析建立性能模型,为不同规格的矩阵计算任务选择预定义的计算内核,并利用arm neon指令集进行底层优化。然而,该技术假设矩阵元素分布均本文档来自技高网...

【技术保护点】

1.一种基于ARM架构的矩阵计算自适应优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述预处理后的矩阵数据进行局部活跃度计算,包括:

3.根据权利要求2所述的方法,其特征在于,所述热点区域识别包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述矩阵的长尾分布特征和所述ARM处理器信息中多级缓存容量参数,计算矩阵的最优分块大小范围,生成非对称分块方案,包括:

5.根据权利要求1所述的方法,其特征在于,所述建立矩阵特征与最优分块参数的映射关系,包括:

6.根据权利要求1所述的方法,其特征在于...

【技术特征摘要】

1.一种基于arm架构的矩阵计算自适应优化方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述预处理后的矩阵数据进行局部活跃度计算,包括:

3.根据权利要求2所述的方法,其特征在于,所述热点区域识别包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述矩阵的长尾分布特征和所述arm处理器信息中多级缓存容量参数,计算矩阵的最优分块大小范围,生成非对称分块方案,包括:

5.根据权利要求1所述的方法,其特征在于,所述建立矩阵特征与最优分块参数的映射关系,包括:

6.根据权利要求1所述的方法,其特征在于,所述任务调度方案,包括:

<...

【专利技术属性】
技术研发人员:邓明森陈琪陈旭蒋真
申请(专利权)人:贵州财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1