【技术实现步骤摘要】
用于执行矩阵压缩和解压缩指令的系统和方法
本专利技术的领域一般涉及计算机处理器架构,并且更具体地涉及用于执行矩阵压缩和解压缩指令的系统和方法。
技术介绍
在诸如机器学习和其他批量数据处理之类的许多计算任务中,矩阵正变得日益重要。深度学习是一类机器学习算法。诸如深度神经网络的深度学习架构已经被应用于包括计算机视觉、语音识别、自然语言处理、音频识别、社交网络过滤、机器翻译、生物信息学和药物设计的领域。用于深度学习的两种工具推理和训练趋向于低精度算术。使深度学习算法和计算的吞吐量最大化可以帮助满足深度学习处理器的需求,深度学习处理器例如在数据中心中执行深度学习的那些处理器。通用矩阵乘法(GEMM)是在机器学习中并且也在线性代数、统计学和许多其他领域中常见的算法。卷积也是在机器学习中通常被应用的。用于执行矩阵压缩和解压缩操作的指令在机器学习上下文中执行卷积和GEMM算法中是有用的。附图说明在所附附图中以示例方式而非限制方式来图示本专利技术,在附图中,类似的附图标记指示类似的要素,其中: ...
【技术保护点】
1.一种处理器,包括:/n取出电路,用于取出具有格式的压缩指令,所述格式具有用于指定操作码以及经解压缩的源矩阵和经压缩的目的地矩阵的位置的字段;/n解码电路,用于对所取出的压缩指令进行解码;以及/n执行电路,用于响应于经解码的压缩指令而进行以下操作:/n通过经由以下任一操作对所述经解压缩的源矩阵进行压缩来根据压缩算法生成经压缩的结果:将非零值元素紧缩在一起,并且将每个非零值元素的矩阵位置存储在头部中;或者使用更少的位来表示一个或多个元素,并且使用所述头部来标识由更少的位表示的矩阵元素;以及/n将所述经压缩的结果存储到所述经压缩的目的地矩阵。/n
【技术特征摘要】
20180927 US 16/144,9021.一种处理器,包括:
取出电路,用于取出具有格式的压缩指令,所述格式具有用于指定操作码以及经解压缩的源矩阵和经压缩的目的地矩阵的位置的字段;
解码电路,用于对所取出的压缩指令进行解码;以及
执行电路,用于响应于经解码的压缩指令而进行以下操作:
通过经由以下任一操作对所述经解压缩的源矩阵进行压缩来根据压缩算法生成经压缩的结果:将非零值元素紧缩在一起,并且将每个非零值元素的矩阵位置存储在头部中;或者使用更少的位来表示一个或多个元素,并且使用所述头部来标识由更少的位表示的矩阵元素;以及
将所述经压缩的结果存储到所述经压缩的目的地矩阵。
2.如权利要求1所述的处理器,其特征在于,所述执行电路进一步用于:在将所述经压缩的结果存储到所述经压缩的目的地矩阵之前,对所述经压缩的结果的元素执行算术或逻辑操作。
3.如权利要求1所述的处理器,其特征在于,所述经解压缩的源矩阵和所述经压缩的目的地矩阵各自位于浮点寄存器的集合、向量寄存器的集合、片寄存器的集合、以及存储器中的任一个中。
4.如权利要求1-3中的任一项所述的处理器,其特征在于:
所述取出电路进一步用于取出解压缩指令,所述解压缩指令指定经压缩的源矩阵和经解压缩的目的地矩阵的位置,其中所述经压缩的结果被指定为所述经压缩的源矩阵,所述经压缩的结果已通过将非零值元素紧缩在一起并且将每个非零值元素的矩阵位置存储在所述头部中而被生成;
所述解码电路进一步用于对所取出的解压缩指令进行解码;并且
所述执行电路进一步用于通过将所述经压缩的源矩阵的非零值元素中的每一个写入所述经解压缩的目的地矩阵内的所述经压缩的源矩阵的非零值元素中的所述每一个的相关联位置来对经解码的解压缩指令作出响应,所述相关联位置由所述头部确定。
5.如权利要求1-3中的任一项所述的处理器,其特征在于,当所述经压缩的结果通过将非零值元素紧缩在一起而被生成时,所述头部包括多位的值,所述多位的值具有用于所述经解压缩的源矩阵的每个元素位置的位,所述位用于标识所述经解压缩的源矩阵的非零值元素。
6.如权利要求1-3中的任一项所述的处理器,其特征在于,当所述经压缩的结果通过使用更少的位来表示一个或多个元素而被生成时,所述头部包括多位的值,所述多位的值具有用于所述经解压缩的源矩阵的每个元素位置的位,所述位用于标识由更少的位表示的所述经压缩的结果的元素。
7.如权利要求1-3中的任一项所述的处理器,其特征在于,当所述执行电路用于通过使用更少的位来表示一个或多个元素而生成所述经压缩的结果时,所述一个或多个元素被替换为指向值的字典的指针,所述指针使用比未压缩的源矩阵元素更少的位。
8.一种系统,包括存储器和处理器,所述处理器包括:
取出电路,用于取出解压缩指令,所述解压缩指令的格式具有用于指定操作码以及经压缩的源矩阵和经解压缩的目的地矩阵的位置的字段;
解码电路,用于对所取出的解压缩指令进行解码;以及
执行电路,用于响应于经解码的解压缩指令而进行以下操作:
通过以下操作来根据解压缩算法生成经解压缩的结果:当所述经压缩的源矩阵包括紧缩非零值元素时,将所述源矩阵的每个元素复制到所述经解压缩的目的地矩阵内的所述源矩阵的所述每个元素的相关联位置,所述相关联位置由多位的头部标识,所述多位头部针对所述经解压缩的目的地矩阵的每个元素具有一个位,其中对应于非零值元素的位被设置;以及
将所述经解压缩的结果存储到所述经解压缩的目的地矩阵。
9.如...
【专利技术属性】
技术研发人员:D·鲍姆,M·艾斯皮格,J·吉尔福德,W·K·费格哈利,R·萨德,C·J·休斯,R·凡伦天,B·托尔,E·乌尔德阿迈德瓦尔,M·J·查尼,V·戈帕尔,R·佐哈,A·F·海内克,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。