基于芯片的融合算子处理方法、装置及相关产品制造方法及图纸

技术编号:34796442 阅读:16 留言:0更新日期:2022-09-03 20:01
本申请提供一种的基于芯片的融合算子处理方法、装置及相关产品,具体应用于数据处理技术领域。方案包括:从芯片的存储装置上按照顺序依次将矩阵单元加载到芯片上的计算装置上,矩阵单元是按照预设的矩阵单元维度对目标矩阵进行矩阵拆分获得的;采用计算装置迭代计算每一个矩阵单元的归一化分母并求和,并确定每一个矩阵单元的TopK值并迭代处理,直至得到目标矩阵中全部矩阵单元的归一化分母之和以及目标矩阵对应的TopK值;采用计算装置根据目标矩阵对应的TopK值,计算每个TopK值的归一化分子;采用计算装置根据目标矩阵对应的归一化分母之和及每个TopK值的归一化分子,得到目标矩阵的融合算子的处理结果。矩阵的融合算子的处理结果。矩阵的融合算子的处理结果。

【技术实现步骤摘要】
基于芯片的融合算子处理方法、装置及相关产品


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种基于芯片的融合算子处理方法、装置及相关产品。

技术介绍

[0002]随着人工智能及数字电子技术的不断发展,各种人工智能芯片的快速发展对于数据处理的要求越来越高。
[0003]目前在人工智能领域的自然语言人机交互技术中,快速编解码(英文为:fast

transformer)网络模型由于具有强大的语义表达能力,所以被广泛使用。在fast

transformer网络模型进行分类时,一般先采用全连接层将特征表示矩阵映射到样本标记空间,然后采用softmax分类器进行分类,最终取出最优的TopK种分类结果。
[0004]而目前在采用芯片处理fast

transformer网络模型分类运算时,由于特征表示矩阵的维度很大,而在芯片上的计算装置的空间有限,所以需要从芯片的存储装置中进行大量的IO操作,并且目前采用芯片处理fast

transformer网络模型分类运算时的处理过程会产生大量的冗余计算,进而导致对数据的处理效率较低。

技术实现思路

[0005]本申请提供一种基于芯片的融合算子处理方法、装置及相关产品,用以解决现有技术中采用芯片处理fast

transformer网络模型分类运算时,需要从芯片的存储装置中进行大量的IO操作,并且目前采用芯片处理fast

transformer网络模型分类运算时的处理过程会产生大量的冗余计算,进而导致对数据的处理效率较低的技术问题。
[0006]第一方面,本申请提供一种基于芯片的融合算子处理方法,包括:
[0007]从芯片的存储装置上按照顺序依次将矩阵单元加载到芯片上的计算装置上;其中,所述矩阵单元是按照预设的矩阵单元维度对所述目标矩阵进行矩阵拆分获得的;所述顺序是将目标矩阵拆分成矩阵单元时获得的;
[0008]采用所述芯片的计算装置迭代计算每一个矩阵单元的归一化分母并求和,并确定每一个矩阵单元的TopK值并迭代处理,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和以及所述目标矩阵对应的TopK值;
[0009]采用所述计算装置根据所述目标矩阵对应的TopK值,计算每个TopK值的归一化分子;
[0010]采用所述计算装置根据所述目标矩阵对应的归一化分母之和及所述每个TopK值的归一化分子,得到所述目标矩阵的融合算子的处理结果。
[0011]第二方面,本申请提供一种基于芯片的融合算子处理装置,包括:
[0012]加载单元,用于从芯片的存储装置上按照顺序依次将矩阵单元加载到芯片上的计算装置上;其中,所述矩阵单元是按照预设的矩阵单元维度对所述目标矩阵进行矩阵拆分获得的;所述顺序是将目标矩阵拆分成矩阵单元时获得的;
[0013]迭代处理单元,用于采用所述芯片的计算装置迭代计算每一个矩阵单元的归一化分母并求和,并确定每一个矩阵单元的TopK值并迭代处理,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和以及所述目标矩阵对应的TopK值;
[0014]计算单元,用于采用所述计算装置根据所述目标矩阵对应的TopK值,计算每个TopK值的归一化分子;
[0015]所述计算单元,还用于采用所述计算装置根据所述目标矩阵对应的归一化分母之和及所述每个TopK值的归一化分子,得到所述目标矩阵的融合算子的处理结果。
[0016]第三方面,本申请提供一种人工智能芯片,包括:存储装置、计算装置及如第二方面所述的基于芯片的数据处理装置。
[0017]第四方面,本申请提供一种电子设备,所述电子设备包括:片外存储器及如第三方面所述的人工智能芯片。
[0018]第五方面,本申请提供一种板卡,所述板卡包括:存储器件、对外接口装置和控制器件以及如第三方面所述的人工智能芯片;
[0019]其中,所述人工智能芯片与所述存储器件、所述控制器件以及所述对外接口装置分别连接;
[0020]所述存储器件,用于存储目标数据;
[0021]所述对外接口装置,用于实现所述人工智能芯片与外部设备之间的数据传输;
[0022]所述控制器件,用于对所述人工智能芯片的状态进行监控。
[0023]本申请提供的基于芯片的融合算子处理方法、装置及相关产品,通过从芯片的存储装置上按照将目标矩阵拆分成矩阵单元的顺序依次将矩阵单元加载到芯片上的计算装置上,所述矩阵单元是按照预设的矩阵单元维度对所述目标矩阵进行矩阵拆分获得的;采用计算装置迭代计算每一个矩阵单元的归一化分母并求和,并确定每一个矩阵单元的TopK值并迭代处理,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和以及所述目标矩阵对应的TopK值;采用所述计算装置根据所述目标矩阵对应的TopK值,计算每个TopK值的归一化分子;采用所述计算装置根据所述目标矩阵对应的归一化分母之和及所述每个TopK值的归一化分子,得到所述目标矩阵的融合算子的处理结果。由于将读取矩阵单元、对矩阵单元计算归一化分母并求和以及确定目标矩阵的TopK值的过程融合在一起,形成了循环迭代计算,所以能够有效减少冗余计算,提高了数据处理效率。并且只需要从存储装置中读取一次矩阵单元,所以也有效减少了IO操作。
附图说明
[0024]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0025]图1示出根据本申请实施例的板卡的结构图;
[0026]图2示出根据本申请实施例的组合处理装置的结构图;
[0027]图3示出根据本申请实施例的单核计算装置的内部结构示意图;
[0028]图4示出根据本申请实施例的多核计算装置的内部结构示意图;
[0029]图5示出根据本申请实施例的处理器核的内部结构示意图;
[0030]图6为本申请一个实施例提供的基于芯片的融合算子处理方法的流程图;
[0031]图7为本申请另一个实施例提供的基于芯片的融合算子处理方法的流程图;
[0032]图8为本申请又一个实施例提供的基于芯片的融合算子处理方法的流程图;
[0033]图9为本申请再一个实施例提供的基于芯片的融合算子处理方法的流程图;
[0034]图10为本申请还一个实施例提供的基于芯片的融合算子处理方法的流程图;
[0035]图11为本申请还一个实施例提供的基于芯片的融合算子处理装置的结构示意图。
具体实施方式
[0036]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于芯片的融合算子处理方法,其特征在于,包括:从芯片的存储装置上按照顺序依次将矩阵单元加载到芯片上的计算装置上;其中,所述矩阵单元是按照预设的矩阵单元维度对所述目标矩阵进行矩阵拆分获得的;所述顺序是将目标矩阵拆分成矩阵单元时获得的;采用所述芯片的计算装置迭代计算每一个矩阵单元的归一化分母并求和,并确定每一个矩阵单元的TopK值并迭代处理,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和以及所述目标矩阵对应的TopK值;采用所述计算装置根据所述目标矩阵对应的TopK值,计算每个TopK值的归一化分子;采用所述计算装置根据所述目标矩阵对应的归一化分母之和及所述每个TopK值的归一化分子,得到所述目标矩阵的融合算子的处理结果。2.根据权利要求1所述的方法,其特征在于,所述计算装置包括存储模块和运算模块;采用计算装置迭代计算每一个矩阵单元的归一化分母并求和,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和,包括:将当前次迭代的矩阵单元从存储模块移动到运算模块,并采用所述运算模块计算当前次迭代的矩阵单元的归一化分母;采用运算模块将上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和。3.根据权利要求2所述的方法,其特征在于,所述将当前次迭代的矩阵单元从存储模块移动到运算模块,并采用所述运算模块计算当前次迭代的矩阵单元的归一化分母,包括:将当前次迭代的矩阵单元从存储模块移动到运算模块,并采用所述运算模块确定当前次迭代的矩阵单元中的初始最大值元素;将上一次迭代时的矩阵单元的目标最大值元素从存储模块移动到运算模块,并采用所述运算模块确定所述上一次迭代时的矩阵单元的目标最大值元素与所述初始最大值元素中的最大值,并将该最大值确定为当前次迭代的矩阵单元对应的目标最大值元素;采用所述运算模块根据所述目标最大值元素计算当前次迭代的矩阵单元的归一化分母。4.根据权利要求3所述的方法,其特征在于,所述采用运算模块将上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和之前,还包括:采用运算模块判断上一次迭代时的矩阵单元的目标最大值元素是否小于当前次迭代的矩阵单元中的初始最大值元素;若确定上一次迭代时的矩阵单元的目标最大值元素小于当前次迭代的矩阵单元中的初始最大值元素,则更新上一次迭代计算完成的归一化分母之和;所述采用运算模块将上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和,包括:采用运算模块将更新后的上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和。5.根据权利要求1

4任一项所述的方法,其特征在于,采用计算装置确定每一个矩阵单
元的TopK值并迭代处理,直至得到所述目标矩阵对应...

【专利技术属性】
技术研发人员:ꢀ七四专利代理机构
申请(专利权)人:安徽寒武纪信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1