【技术实现步骤摘要】
本专利技术涉及异构并行计算领域,具体涉及一种应用于海光dcu的注意力算子头维度分块计算方法。
技术介绍
1、随着新一轮科技革命与产业变革的深度演进,人工智能、高性能计算、物联网等前沿
对计算资源的需求正呈现指数级增长态势。在深度学习模型训练、自动驾驶决策系统、量子化学模拟等典型应用场景中,硬件资源提供的算力支撑已成为制约技术突破的关键要素。硬件资源提供了必要的算力,传统基于cpu为主要计算核心的单一计算架构在处理并行计算任务,例如神经网络的核心计算操作矩阵乘法时效率较低,无法满足高吞吐量和高效率的计算要求;同时随着摩尔定律的放缓,单个cpu核心的计算性能提升逐渐缓慢。
2、现代gpu架构集成了数千个处理核心,采用simt执行模式,能够同时对海量数据元素执行相同操作。cpu和gpu组成了典型的异构计算平台,其中cpu负责处理复杂的控制逻辑、任务调度和序列化操作,gpu负责执行大规模的并行计算任务,异构计算架构通过将计算任务划分为多个子任务分配给不同的处理单元,在特定任务中提供更好的性能,能够同时支持高吞吐量计算和低延迟计
...【技术保护点】
1.一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于:所述MMOP矩阵计算指令的矩阵维度的要求为16×16×16,一次MMOP矩阵计算指令执行的矩阵计算由一个线程工作组来执行,每一个线程工作组包含64个线程。
3.根据权利要求1所述的一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于:
4.根据权利要求3所述的一种应用于海光DCU的注意力算子头维度分块计算方法,其特征在于:所述分块参数split_qk根据
...【技术特征摘要】
1.一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于:所述mmop矩阵计算指令的矩阵维度的要求为16×16×16,一次mmop矩阵计算指令执行的矩阵计算由一个线程工作组来执行,每一个线程工作组包含64个线程。
3.根据权利要求1所述的一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于:
4.根据权利要求3所述的一种应用于海光dcu的注意力算子头维度分块计算方法,其特征在于:所述分块参数split_qk根据查询张量q乘键张量k的单个线程工作组所处理的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。