【技术实现步骤摘要】
【国外来华专利技术】
至少一个实施例涉及用于变换存储器中的数据以供深度学习运算使用的处理资源。例如,至少一个实施例涉及处理器或计算系统,用于根据本文所述的各种新颖技术对数据执行一个或更多个变换,以改善一个或更多个深度学习运算的性能。
技术介绍
1、执行深度学习运算,诸如对矩阵数据的运算,可以使用大量存储器、时间和/或计算资源。特别是,使用矩阵数据的深度学习运算通常必须在使用这些部分执行计算之前加载和/或重新加载存储在存储器中的不同位置的矩阵的部分。当多个执行深度学习运算的线程对共享矩阵数据进行运算时,冗余的加载和存储操作可以发生,以访问存储器中的这些数据,从而导致性能下降。
技术实现思路
【技术保护点】
1.一种处理器,包括:
2.根据权利要求1所述的处理器,其中所述一个或更多个数学运算用于使所述一个或更多个矩阵操作数在存储器中具有分瓦片布局表示。
3.根据权利要求1所述的处理器,其中所述一个或更多个数学运算包括将一个或更多个数据值插入到所述一个或更多个矩阵操作数中以使所述一个或更多个矩阵操作数具有特定形状的一个或更多个运算。
4.根据权利要求1所述的处理器,其中所述一个或更多个数学运算包括用于将所述一个或更多个矩阵操作数的一个或更多个数据元素分组为瓦片的一个或更多个运算。
5.根据权利要求1所述的处理器,其中所述一个或
...【技术特征摘要】
【国外来华专利技术】
1.一种处理器,包括:
2.根据权利要求1所述的处理器,其中所述一个或更多个数学运算用于使所述一个或更多个矩阵操作数在存储器中具有分瓦片布局表示。
3.根据权利要求1所述的处理器,其中所述一个或更多个数学运算包括将一个或更多个数据值插入到所述一个或更多个矩阵操作数中以使所述一个或更多个矩阵操作数具有特定形状的一个或更多个运算。
4.根据权利要求1所述的处理器,其中所述一个或更多个数学运算包括用于将所述一个或更多个矩阵操作数的一个或更多个数据元素分组为瓦片的一个或更多个运算。
5.根据权利要求1所述的处理器,其中所述一个或更多个数学运算包括用于对所述一个或更多个矩阵操作数的一个或更多个数据元素重新排序以使所述一个或更多个数据元素具有行优先布局的一个或更多个运算。
6.根据权利要求1所述的处理器,其中所述一个或更多个矩阵操作数为将用作一个或更多个深度学习运算的输入的张量。
7.根据权利要求1所述的处理器,其中所述一个或更多个数学运算包括将对所述一个或更多个矩阵操作数执行的第一组运算和将对一个或更多个深度学习运算的一个或更多个输出执行的第二组运算。
8.根据权利要求1所述的处理器,其中所述一个或更多个数学运算用于使所述一个或更多个矩阵操作数从在存储器中以第一布局存储到在存储器中以第二布局存储。
9.一种系统,包括:
10.根据权利要求9所述的系统,其中所述一个或更多个处理器用于使编译器将所述一个或更多个数学运算插入软件程序,所述一个或更多个数学运算用于将所述一个或更多个矩阵操作数变换为存储器中的分瓦片布局表示。
11.根据权利要求9所述的系统,其中所述一个或更多个数学运算是至少包括将一组或更多组数据插入所述一个或更多个矩阵操作数中以改变所述一个或更多个矩阵操作数的形状的运算的基元运算。
12.根据权利要求9所述的系统,其中所述一个或更多个数学运算是至少包括将所述一个或更多个矩阵操作数的一个或更多个数据元素分组为子矩阵的运算的基元运算。
13.根据权利要求9所述的系统,其中所述一个或更多个数学运算是至少包括对所述一个或更多个矩阵操作数的一个或更多个数据元素进行排列以使得所述一个或更多个数据元素连续存储在存储器中的运算的基元运算。
14.根据权利要求9所述的系统,其中所述一个或更多个矩阵操作数是包括形状和步幅的张量,并且根据所述形状和所述步幅对所述一个或更多个矩阵操作数执行所述一个或更多个数学运算。
15.根据权利要求9所述的系统,其中所述一个或更多个处理器用于使编译器将所述一个或更多个数学运算的第一组插入软件程序中的第一位置,并且将所述数学运算的第二组插入所述软件程序中的第二位置,其中所述第一组用于使所述一个或更多个矩阵操作数在存储器中具有分瓦片布局表示,并且所述第二组用于从所述一个或更多个矩阵操作数中去除所述分瓦片布局表示。
16.一种机器可读介质,其上存储有一个或更多个指令,所述一个或更多个指令如果由一个或更多个处理器执行,则使所述一个或更多个处理器至少:
17.根据权利要求16所述的机器可读介质,其中所述一个或更多个数学运算用于使所述一个或更多个矩阵操作数以分瓦片布局表示存储在存储器中。
18.根据权利要求16所述的机器可读介质,进一步包括指令,所述指令如果由所述一个或...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。