注意力运算处理方法和装置制造方法及图纸

技术编号:42645801 阅读:24 留言:0更新日期:2024-09-06 01:40
本公开提供了一种注意力运算处理方法和装置,方法包括:将查询矩阵、键矩阵和值矩阵分别分成查询矩阵块、键矩阵块和值矩阵块,调度到寄存器中;通过张量处理器,从寄存器中读取查询矩阵块和键矩阵块,并对查询矩阵块和键矩阵块进行矩阵乘运算,得到子乘积矩阵并写回寄存器;通过指数化处理单元,基于寄存器中的子乘积矩阵进行指数化处理,得到子指数矩阵并写回寄存器;从寄存器中读取子指数矩阵、和值矩阵块,并基于子指数矩阵和值矩阵块进行矩阵乘运算,生成注意力运算结果子块;基于各个注意力运算结果子块,得到注意力运算结果矩阵。基于本公开的注意力运算处理方法,可以降低注意力运算过程中的访存开销,并提高注意力运算的效率。

【技术实现步骤摘要】

本公开涉及数据处理领域,特别是涉及一种注意力运算处理方法和装置


技术介绍

1、注意力机制是神经网络模型中常用的技术,如transformer模型中,自注意力机制就是该模型的核心。这些神经网络模型往往先将输入的向量或序列转换成相应的查询矩阵、键矩阵和值矩阵,再将查询矩阵、键矩阵和值矩阵输入到注意力机制模块中,注意力机制模块通过对查询矩阵、键矩阵和值矩阵进行多次矩阵运算和指数归一化处理,得到注意力权重矩阵,从而确定向量或序列中各个元素的注意力权重。

2、在现有技术中,查询矩阵、键矩阵和值矩阵一般是存放在gpu等计算组件的全局内存里,全局内存允许计算组件的所有线程访问,线程从全局内存中读取矩阵的数据,线程再将数据传输至张量处理器或指数归一化模块进行相应的矩阵运算。而由于线程是由计算单元(compute unit)执行的,全局内存则是独立于计算单元外部的,位于执行单元内部的线程访问全局内存的速度相对较慢,这使得注意力机制的运算效率不高,而且访存开销较大。


技术实现思路

1、本公开实施例提供了一种注意力运本文档来自技高网...

【技术保护点】

1.一种注意力运算处理方法,其特征在于,用于注意力运算处理装置,所述注意力运算处理装置包括张量处理器和计算单元,所述计算单元包括寄存器和指数化处理单元,所述注意力运算处理方法包括:

2.根据权利要求1所述的注意力运算处理方法,其特征在于,所述将用于目标注意力运算的查询矩阵、键矩阵和值矩阵分别分成查询矩阵块、键矩阵块和值矩阵块,调度到所述寄存器中,包括:

3.根据权利要求2所述的注意力运算处理方法,其特征在于,所述计算单元为多个计算单元,所述将分成的多个查询矩阵块按第一周期依次放入所述寄存器,包括:

4.根据权利要求2所述的注意力运算处理方法,其特征在于...

【技术特征摘要】

1.一种注意力运算处理方法,其特征在于,用于注意力运算处理装置,所述注意力运算处理装置包括张量处理器和计算单元,所述计算单元包括寄存器和指数化处理单元,所述注意力运算处理方法包括:

2.根据权利要求1所述的注意力运算处理方法,其特征在于,所述将用于目标注意力运算的查询矩阵、键矩阵和值矩阵分别分成查询矩阵块、键矩阵块和值矩阵块,调度到所述寄存器中,包括:

3.根据权利要求2所述的注意力运算处理方法,其特征在于,所述计算单元为多个计算单元,所述将分成的多个查询矩阵块按第一周期依次放入所述寄存器,包括:

4.根据权利要求2所述的注意力运算处理方法,其特征在于,所述张量处理器包括矩阵乘法运算单元和累加缓存器;

5.根据权利要求4所述的注意力运算处理方法,其特征在于, 所述基于各个所述注意力运算结果子块,得到注意力运算结果矩阵,包括:

6.根据权利要求5所述的注意力运算处理方法,其特征在于,所述寄存器中存储有行最大值向量,所述行最大值向量中的各个元素分别作为所述子乘积矩阵中的各个矩阵行对应的行最大值,在通过所述指数化处理单元,对所述寄存器中的所述子乘积矩阵进行指数化处理,得到子指数矩阵之前,所述方法还包括:

7.根据权利要求6所述的注意力运算处理方法,其特征在于,所述将当前第二周期对应的所述注意力运算结果子块累加到所述累加缓存器中的所述注意力中间结果子矩阵,包括:

8.根据权利要求5所述的注意力运算处理方法,其特征在于,所述计算单元还包括多个线程束,每个...

【专利技术属性】
技术研发人员:徐璐请求不公布姓名
申请(专利权)人:苏州亿铸智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1