一种应用于海光DCU的注意力算子头维度分块计算方法技术

技术编号:46064902 阅读:17 留言:0更新日期:2025-08-11 15:51
本发明专利技术涉及异构并行计算领域,为一种应用于海光DCU的注意力算子头维度分块计算方法,包括:扩张每个线程块在注意力算子中负责的序列长度分块计算范围和单个线程工作组所处理的矩阵计算范围;选定分块参数split_qk和分块参数split_v;对查询张量Q和键张量K的头维度选择合适的切块参数split_qk进行切分,累加分块计算的结果后通过softmax函数对S分块结果进行计算得到P分块结果;对值张量V和输出张量O的头维度选择合适的切块参数split_v进行切分,分块计算的结果对应输出张量O的相应分块;最后张量O根据split_v切分,每个分块结果分别写回全局内存。本发明专利技术适用于CPU和DCU组成的异构并行计算系统,可以节省DCU计算单元的计算资源,减少资源溢出导致的性能损失,提升计算效率。

【技术实现步骤摘要】

本专利技术涉及异构并行计算领域,具体涉及一种应用于海光dcu的注意力算子头维度分块计算方法。


技术介绍

1、随着新一轮科技革命与产业变革的深度演进,人工智能、高性能计算、物联网等前沿
对计算资源的需求正呈现指数级增长态势。在深度学习模型训练、自动驾驶决策系统、量子化学模拟等典型应用场景中,硬件资源提供的算力支撑已成为制约技术突破的关键要素。硬件资源提供了必要的算力,传统基于cpu为主要计算核心的单一计算架构在处理并行计算任务,例如神经网络的核心计算操作矩阵乘法时效率较低,无法满足高吞吐量和高效率的计算要求;同时随着摩尔定律的放缓,单个cpu核心的计算性能提升逐渐缓慢。

2、现代gpu架构集成了数千个处理核心,采用simt执行模式,能够同时对海量数据元素执行相同操作。cpu和gpu组成了典型的异构计算平台,其中cpu负责处理复杂的控制逻辑、任务调度和序列化操作,gpu负责执行大规模的并行计算任务,异构计算架构通过将计算任务划分为多个子任务分配给不同的处理单元,在特定任务中提供更好的性能,能够同时支持高吞吐量计算和低延迟计算,并且通过选择合适本文档来自技高网...

【技术保护点】

1.一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于:所述MMOP矩阵计算指令的矩阵维度的要求为16×16×16,一次MMOP矩阵计算指令执行的矩阵计算由一个线程工作组来执行,每一个线程工作组包含64个线程。

3.根据权利要求1所述的一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于:

4.根据权利要求3所述的一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于:所述分块参数split_qk根据查询张量Q乘键张量K...

【技术特征摘要】

1.一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于:所述mmop矩阵计算指令的矩阵维度的要求为16×16×16,一次mmop矩阵计算指令执行的矩阵计算由一个线程工作组来执行,每一个线程工作组包含64个线程。

3.根据权利要求1所述的一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于:

4.根据权利要求3所述的一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于:所述分块参数split_qk根据查询张量q乘键张量k的单个线程工作组所处理的...

【专利技术属性】
技术研发人员:陆璐雷明烯
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1