Attention算子的反向传播优化方法和设备技术

技术编号:41531996 阅读:21 留言:0更新日期:2024-06-03 23:08
本申请实施例提供了Attention算子的反向传播优化方法和设备,涉及人工智能技术领域,在该方法中,将Attention算子的反向传播过程涉及多个算子进行算子融合,获得目标融合算子。然后采用张量计算单元和矢量计算单元,对目标融合算子进行计算获得梯度信息。在计算过程中,张量计算单元和矢量计算单元通过片上高速缓存或者寄存器传输计算获得的中间结果,这样便无需将中间结果写回显存,有效减少了对显存的访问以及显存占用,从而提高了Attention算子的反向传播效率。其次,通过片上高速缓存或者寄存器传输计算获得的中间结果,有效提高了张量计算单元和矢量计算单元之间的通信效率,降低了数据传输延迟。

【技术实现步骤摘要】

本申请实施例涉及人工智能,尤其涉及attention算子的反向传播优化方法和设备。


技术介绍

1、目前,大语言模型(large language models,简称llm)发展迅速,这一类模型也被越来越多地应用到机器翻译、智能查询、代码调试等各种需要语言处理的场景中。

2、大语言模型普遍以transformer模型作为核心基础架构,transformer模型是图像分类、自然语言处理等领域中最为常见的核心架构。随着技术和算法的革新,transformer模型在尺寸和深度等方面都取得了长足的发展。

3、transformer模型的核心计算部分是注意力机制attention。attention可以通过堆叠形成深度结构,可以作为ai应用场景中文本分类、文本聚类、关系抽取等模型的特征表示部分。

4、attention算子的核心在于查询向量q、键向量k以及值向量v这三个矩阵的交互和融合,其中,查询向量q和键向量k的交互给出了两两矩阵之间的相关度,然后对相关度进行归一化获得权重,权重与值向量v的乘积求和获得最后的输出结果。

...

【技术保护点】

1.一种Attention算子的反向传播优化方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述目标融合算子包括:反向重计算关联的前向类算子以及反向计算关联的反向类算子;

3.如权利要求2所述的方法,其特征在于,所述前向类算子包括:前向矩阵乘法算子和前向激活算子;所述反向类算子包括:反向矩阵乘法算子;

4.如权利要求3所述的方法,其特征在于,所述前向类算子还包括:前向随机丢弃算子;

5.如权利要求3所述的方法,其特征在于,所述通过所述张量计算单元执行所述前向矩阵乘法算子,获得前向矩阵乘法结果,包括:p>

6.如权利...

【技术特征摘要】

1.一种attention算子的反向传播优化方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述目标融合算子包括:反向重计算关联的前向类算子以及反向计算关联的反向类算子;

3.如权利要求2所述的方法,其特征在于,所述前向类算子包括:前向矩阵乘法算子和前向激活算子;所述反向类算子包括:反向矩阵乘法算子;

4.如权利要求3所述的方法,其特征在于,所述前向类算子还包括:前向随机丢弃算子;

5.如权利要求3所述的方法,其特征在于,所述通过所述张量计算单元执行所述前向矩阵乘法算子,获得前向矩阵乘法结果,包括:

6.如权利要求2所述的方法,其特征在于,所述反向类算子包括:反向矩阵乘法算子和反向激活算子;

7.如权利要求6所述的方法,其特征在于,所述反向类算子还包括:反向随机丢弃算子;

8.如权利要求6所述的方法,其特征在于,所述通过所述张量计算单元执行所述反向矩阵乘法算子,获得反向矩阵乘法结果,包括:

9.如权利要求8所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1