【技术实现步骤摘要】
一种数据处理方法及相关装置
[0001]本申请涉及人工智能
,尤其涉及一种数据处理方法及相关装置。
技术介绍
[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0003]近年来,自注意力网络已经在许多自然语言处理(Natural Language Processing,NLP)任务中得到了很好的应用,例如机器翻译,情感分析和问题解答等。随着自注意力网络的广泛应用,源于自然语言处理领域的自注意力网络在图像分类、目标检测、和图像处理等任务上也取得了很高的性能。
[0004]由于自注意力网络中存在部分冗余三维计算信息,因此能够减少计算量的稀疏注意力网络应运而生。在稀疏注意力网络中,核心的计算过程是基于两个稠密矩阵计算得到稀疏矩阵,该稀疏矩阵用于表征稀疏注意力特征。目前,计算稀疏矩阵的方式是基于稀疏矩阵中非零元素所在的位置,获取计算非零元素所需的矩阵数据,并逐个计算得到稀疏矩阵中的非零元素。
[0005]然而,这种稀疏矩阵的计算方式需要频繁地搬运计算所需的矩阵数据,出现矩阵数据的重复搬运,使得数据搬运指令的数量剧增,降低了矩阵运 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取稀疏矩阵的分块信息,所述稀疏矩阵为基于稀疏注意力网络执行运算的期间所得到的中间矩阵,所述分块信息用于指示所述稀疏矩阵中所划分的多个矩阵块;根据所述分块信息,从第一矩阵和第二矩阵获取所述多个矩阵块中每个矩阵块对应的矩阵数据,所述第一矩阵和所述第二矩阵为用于计算所述稀疏矩阵的矩阵;根据所述矩阵数据,执行矩阵乘运算,得到所述多个矩阵块,所述多个矩阵块包括所述稀疏矩阵中所有的非零元素,且所述多个矩阵块中每个矩阵块包括多个元素;将所述多个矩阵块进行拼接,得到目标矩阵,所述目标矩阵用于执行所述稀疏注意力网络中与所述稀疏矩阵相关的运算。2.根据权利要求1所述的方法,其特征在于,所述将所述多个矩阵块进行拼接,得到目标矩阵,包括:当所述多个矩阵块中包括目标元素时,将所述多个矩阵块中的目标元素的值调整为零,得到多个调整后的矩阵块,所述目标元素为所述稀疏矩阵中值为零的元素;将所述多个调整后的矩阵块进行拼接,得到所述目标矩阵。3.根据权利要求1或2所述的方法,其特征在于,所述多个矩阵块中每个矩阵块的行数或列数相同,所述多个矩阵块用于表示局部注意力特征;所述将所述多个矩阵块进行拼接,得到目标矩阵,包括:当多个矩阵块中每个矩阵块的行数相同时,在列的维度上对所述多个矩阵块进行拼接,得到所述目标矩阵,所述目标矩阵的行数与所述多个矩阵块的行数相同;当多个矩阵块中每个矩阵块的列数相同时,在行的维度上对所述多个矩阵块进行拼接,得到所述目标矩阵,所述目标矩阵的列数与所述多个矩阵块的列数相同。4.根据权利要求1或2所述的方法,其特征在于,所述分块信息包括第一分块信息和第二分块信息,所述第一分块信息用于指示所述稀疏矩阵中所划分的多个第一矩阵块,所述多个第一矩阵块的列数相同且所述多个第一矩阵块的总行数等于所述稀疏矩阵的行数,所述第二分块信息用于指示所述稀疏矩阵中所划分的多个第二矩阵块,所述多个第二矩阵块的行数与所述稀疏矩阵的行数相同且所述多个第二矩阵块的列数小于所述稀疏矩阵的列数;所述将所述多个矩阵块进行拼接,得到目标矩阵,包括:在行的维度上对所述多个第一矩阵块进行拼接,得到第一目标矩阵;在列的维度上对所述多个第二矩阵块进行拼接,得到第二目标矩阵;在列的维度上对所述第一目标矩阵和所述第二目标矩阵进行拼接,得到所述目标矩阵。5.根据权利要求4所述的方法,其特征在于,所述多个第一矩阵块用于表示局部注意力特征,所述多个第二矩阵块用于表示全局注意力特征。6.根据权利要求4或5所述的方法,其特征在于,所述在列的维度上对所述第一目标矩阵和所述第二目标矩阵进行拼接,得到所述目标矩阵,包括:若所述第一目标矩阵中的第一元素和所述第二目标矩阵中的第二元素在所述稀疏矩阵中的位置相同,则将所述第二目标矩阵中的第二元素的值调整为零,得到调整后的第二目标矩阵;
在列的维度上对所述第一目标矩阵和所述调整后的第二目标矩阵进行拼接,得到所述目标矩阵。7.根据权利要求4
‑
6任意一项所述的方法,其特征在于,所述方法还包括:对所述目标矩阵进行归一化操作,得到归一化的目标矩阵;基于所述归一化后的目标矩阵和第三矩阵,得到输出矩阵,所述输出矩阵为所述稀疏注意力网络中注意力模块的输出,所述第一矩阵、所述第二矩阵和所述第三矩阵是基于不同的权重对同一个矩阵进行运算得到的。8.根据权利要求7所述的方法,其特征在于,所述基于所述归一化后的目标矩阵和第三矩阵,得到第四矩阵,包括:基于所述目标矩阵的拼接方式,对所述归一化的目标矩阵在列的维度上进行拆分,得到第三目标矩阵和第四目标矩阵,所述第三目标矩阵的大小与所述第一目标矩阵的大小相同,所述第四目标矩阵的大小与所述第二目标矩阵的大小相同;基于所述第一目标矩阵的拼接方式,对所述第三目标矩阵和第三矩阵进行拆分,得到所述第三目标矩阵中的多个矩阵块以及所述第三矩阵中的多个矩阵块,所述第三目标矩阵中的矩阵块与所述第三矩阵中的矩阵块具有一一对应的关系;对所述第三目标矩阵和所述第三矩阵中具有对应关系的矩阵块执行矩阵乘运算,并在行的维度上拼接执行矩阵乘运算后所得到的矩阵块,得到第一输出矩阵;对所述第四目标矩阵和第三矩阵的子矩阵执行矩阵乘运算,得到第二输出矩阵,所述子矩阵是由第三矩阵中的多行元素构成的;将所述第一输出矩阵与所述第二输出矩阵相加,得到所述输出矩阵。9.一种基于稀疏注意力网络的数据处理方法,其特征在于,包括:获取待处理数据;基于稀疏注意力网络,对所述待处理数据进行处理,得到输出数据;其中,在基于所述稀疏注意力网络处理所述待处理数据的期间,根据权利要求1
‑
8所述的方法执行所述稀疏注意力网络中与稀疏矩阵相关的运算。10.根据权利要求9所述的方法,其特征在于,所述待处理数据包括图像数据、文本数据或语音数据。11.一种数据处理装置,其特征在于,包括:获取单元和处理单元;所述获取单元,用于获取稀疏矩阵的分块信息,所述稀疏矩阵为基于所述稀疏注意力网络执行运算的期间所得到的中间矩阵,所述分块信息用于指示所述稀疏矩阵中所划分的多个矩阵块;所述获取单元,还用于根据所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。