【技术实现步骤摘要】
适用于人工神经网络的高效矩阵数据格式
本申请一般涉及人工神经网络,并且更具体地,涉及人工神经网络中的矩阵运算。
技术介绍
人工神经网络(ANN)是受生物神经网络启发的计算系统。ANN为许多不同的机器学习算法提供了可以协同工作并处理复杂的数据输入的框架。ANN已用于各种任务,包括计算机视觉,语音和图像标识,机器翻译,社交网络过滤,游戏板和视频游戏以及医疗诊断。概要一个方面提供了一种对压缩的稀疏矩阵进行转置的方法。该方法包括将压缩的稀疏矩阵表示为逻辑空间中的多个压缩的稀疏子矩阵;并且在不解压缩压缩的稀疏矩阵的情况下生成压缩的稀疏矩阵的压缩转置。通过基于逻辑空间中的每个压缩的稀疏子矩阵的图案转置每个压缩的稀疏子矩阵来生成压缩的转置;以及根据一些压缩的稀疏子矩阵的位置交换一些压缩的稀疏子矩阵。另一方面提供了一种用于对压缩的稀疏矩阵进行转置的处理器。处理器包括算术逻辑单元(ALU),其配置成将压缩的稀疏矩阵表示为逻辑空间中的多个压缩的稀疏子矩阵,并且生成压缩的稀疏矩阵的压缩转置而不解压缩压缩的稀疏矩阵。ALU配置成通过 ...
【技术保护点】
1.一种对压缩的稀疏矩阵进行转置的方法,包括:/n将所述压缩的稀疏矩阵加载为多个压缩的稀疏子矩阵;和/n生成所述压缩的稀疏矩阵的转置而不解压缩所述压缩的稀疏矩阵;/n其中所述生成包括:/n基于逻辑空间中的所述压缩的稀疏子矩阵的图案来对每个所述压缩的稀疏子矩阵进行转置;和/n对一些所述压缩的稀疏子矩阵的位置进行交换。/n
【技术特征摘要】
20190227 US 16/287,5641.一种对压缩的稀疏矩阵进行转置的方法,包括:
将所述压缩的稀疏矩阵加载为多个压缩的稀疏子矩阵;和
生成所述压缩的稀疏矩阵的转置而不解压缩所述压缩的稀疏矩阵;
其中所述生成包括:
基于逻辑空间中的所述压缩的稀疏子矩阵的图案来对每个所述压缩的稀疏子矩阵进行转置;和
对一些所述压缩的稀疏子矩阵的位置进行交换。
2.如权利要求1所述的方法,其中所述转置包括使用来自查找表(LUT)的每个所述压缩的稀疏子矩阵的转置信息。
3.如权利要求2所述的方法,其中每个所述图案用作所述LUT的索引。
4.如权利要求3所述的方法,其中所述LUT包括在每个所述图案中的非零元素的位置,和所述每个压缩的稀疏子矩阵的转置中的非零元素的位置。
5.如权利要求1所述的方法,还包括通过向矩阵应用稀疏性限制来生成所述压缩稀疏矩阵,所述稀疏性限制限制所述矩阵的至少一个维度中的非零元素的数量并且沿着所述至少一个维度中的一个压缩所述矩阵。
6.如权利要求1所述的方法,还包括:当所述压缩的稀疏矩阵存储在目的地存储器中时,解压缩所述压缩的稀疏矩阵而不解压缩所述压缩的稀疏矩阵,所述解压缩包括:
加载所述压缩的稀疏子矩阵的元数据,所述元数据是所述压缩的稀疏子矩阵的所述图案;
通过将所述元数据用作LUT的索引,从所述LUT读取所述逻辑空间中的所述压缩稀疏子矩阵的所述图案中的非零元素的位置;和
根据所述位置将所述非零元素的值写入所述目标存储器。
7.如权利要求1所述的方法,其中每个所述图案是每个所述压缩的稀疏矩阵的元数据,并且所述元数据小于表示每个所述图案中非零元素的位置的数据。
8.如权利要求1所述的方法,还包括:将每个所述图案作为每个所述压缩稀疏子矩阵的元数据加载。
9.如权利要求1所述的方法,其中每个所述压缩的稀疏子矩阵是4×4矩阵,在一行和一列中具有两个非零元素。
10.如权利要求1所述的方法,所述生成包括复制所述压缩的稀疏子矩阵的一些非零元素,以降低在所述转置期间访问所述一些非零元素的复杂性。
11.一种用于对压缩的稀疏矩阵...
【专利技术属性】
技术研发人员:J·A·拉托雷,J·普尔,D·加西亚,
申请(专利权)人:辉达公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。