【技术实现步骤摘要】
基于芯片的融合算子处理方法、装置及相关产品
[0001]本专利技术实施例涉及数据处理
,尤其涉及一种基于芯片的融合算子处理方法、装置及相关产品。
技术介绍
[0002]随着人工智能及数字电子技术的不断发展,各种人工智能芯片的快速发展对于数据处理的要求越来越高。
[0003]目前在人工智能领域的自然语言人机交互技术中,快速编解码(英文为:fast
‑
transformer)网络模型由于具有强大的语义表达能力,所以被广泛使用。在fast
‑
transformer网络模型进行分类时,一般先采用全连接层将特征表示矩阵映射到样本标记空间,然后采用softmax分类器进行分类,最终取出最优的TopK种分类结果。
[0004]而目前在采用芯片处理fast
‑
transformer网络模型分类运算时,由于特征表示矩阵的维度很大,而在芯片上的计算装置的空间有限,所以需要从芯片的存储装置中进行大量的IO操作,并且目前采用芯片处理fast
‑
transformer网络模型分类运算时的处理过程会产生大量的冗余计算,进而导致对数据的处理效率较低。
技术实现思路
[0005]本申请提供一种基于芯片的融合算子处理方法、装置及相关产品,用以解决现有技术中采用芯片处理fast
‑
transformer网络模型分类运算时,需要从芯片的存储装置中进行大量的IO操作,并且目前采用芯片处理fast
‑
transfo ...
【技术保护点】
【技术特征摘要】
1.一种基于芯片的融合算子处理方法,其特征在于,包括:从芯片的存储装置上按照顺序依次将矩阵单元加载到芯片上的计算装置上;其中,所述矩阵单元是按照预设的矩阵单元维度对所述目标矩阵进行矩阵拆分获得的;所述顺序是将目标矩阵拆分成矩阵单元时获得的;采用所述芯片的计算装置迭代计算每一个矩阵单元的归一化分母并求和,并确定每一个矩阵单元的TopK值并迭代处理,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和以及所述目标矩阵对应的TopK值;采用所述计算装置根据所述目标矩阵对应的TopK值,计算每个TopK值的归一化分子;采用所述计算装置根据所述目标矩阵对应的归一化分母之和及所述每个TopK值的归一化分子,得到所述目标矩阵的融合算子的处理结果。2.根据权利要求1所述的方法,其特征在于,所述计算装置包括存储模块和运算模块;采用计算装置迭代计算每一个矩阵单元的归一化分母并求和,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和,包括:将当前次迭代的矩阵单元从存储模块移动到运算模块,并采用所述运算模块计算当前次迭代的矩阵单元的归一化分母;采用运算模块将上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和,直至得到所述目标矩阵中全部矩阵单元的归一化分母之和。3.根据权利要求2所述的方法,其特征在于,所述将当前次迭代的矩阵单元从存储模块移动到运算模块,并采用所述运算模块计算当前次迭代的矩阵单元的归一化分母,包括:将当前次迭代的矩阵单元从存储模块移动到运算模块,并采用所述运算模块确定当前次迭代的矩阵单元中的初始最大值元素;将上一次迭代时的矩阵单元的目标最大值元素从存储模块移动到运算模块,并采用所述运算模块确定所述上一次迭代时的矩阵单元的目标最大值元素与所述初始最大值元素中的最大值,并将该最大值确定为当前次迭代的矩阵单元对应的目标最大值元素;采用所述运算模块根据所述目标最大值元素计算当前次迭代的矩阵单元的归一化分母。4.根据权利要求3所述的方法,其特征在于,所述采用运算模块将上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和之前,还包括:采用运算模块判断上一次迭代时的矩阵单元的目标最大值元素是否小于当前次迭代的矩阵单元中的初始最大值元素;若确定上一次迭代时的矩阵单元的目标最大值元素小于当前次迭代的矩阵单元中的初始最大值元素,则更新上一次迭代计算完成的归一化分母之和;所述采用运算模块将上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和,包括:采用运算模块将更新后的上一次迭代计算完成的归一化分母之和与所述当前次迭代的矩阵单元的归一化分母进行求和,以获得当前次迭代后的归一化分母之和。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,采用计算装置确定每一个矩阵单
元的TopK值并迭代处理,直至得到所述目标矩阵对应...
【专利技术属性】
技术研发人员:ꢀ七四专利代理机构,
申请(专利权)人:安徽寒武纪信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。