当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于经融合的乘加的系统、装置和方法制造方法及图纸

技术编号:37389052 阅读:31 留言:0更新日期:2023-04-27 07:27
本申请公开了用于经融合的乘加的系统、装置和方法。在一些实施例中,第一和第二紧缩数据源操作数的紧缩数据元素具有与第三紧缩数据操作数的紧缩数据元素的第二大小不同的第一大小。执行电路执行经解码的单个指令,用以为目的地操作数的每个紧缩数据元素定位履行:来自第一和第二紧缩数据源的、与第三紧缩数据源的紧缩数据元素定位相对应的M个N大小的紧缩数据元素的乘法,将来自这些乘法的结果加到第三紧缩数据源的紧缩数据元素定位的全大小紧缩数据元素,并且将加法结果存储在与第三紧缩数据源的紧缩数据元素定位相对应的紧缩数据元素定位目的地中,其中M等于全大小紧缩数据元素除以N。据元素除以N。据元素除以N。

【技术实现步骤摘要】
用于经融合的乘加的系统、装置和方法
本申请是PCT国际申请号为PCT/US2016/057991、国际申请日为2016年10月20日、进入中国国家阶段的申请号为201680089435.5,题为“用于经融合的乘加的系统、装置和方法”的专利技术专利申请的分案申请。


[0001]本专利技术的领域一般地涉及计算机处理器架构,并且更具体地涉及当被执行的时候引发特定结果的指令。

技术介绍

[0002]线性代数中的常见操作是乘法累加操作(例如c=c+a*b)。乘法累加典型地是操作流中的子操作,例如在两个向量之间的点积,其还可以是矩阵乘法中列和行的单个乘积。例如,C=0For(I)C+=A[l]*B[l]。
附图说明
[0003]本专利技术作为示例而不是限制地在附图的各图中被图示,在所述附图中,同样的参考标记指示类似的元素并且其中:图1图示了根据实施例的使用不同大小的操作数的经融合的乘法累加指令的示例性执行;图2图示了根据实施例的二次幂大小的SIMD实现方式,其中累加器使用比到乘法器的输入更大的输入大小;图3图示了用于处理诸如经融合的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种装置,包括:解码电路,用于对单条指令解码,所述单条指令具有用于指示操作码、紧缩目的地操作数、第一紧缩源操作数和第二紧缩源操作数的字段,其中,目的地的元素大小为32位,并且第一源的元素和第二源的元素大小为16位;寄存器堆,具有多个紧缩数据寄存器,所述多个紧缩数据寄存器包括用于所述目的地操作数和所述源操作数的寄存器;以及执行电路,耦合至所述解码电路,所述执行电路用于执行与所述单条指令对应的操作,包括对于所述目的地的每个元素位置:将来自所述第一源的第一元素与来自所述第二源的第一元素相乘,以生成第一结果,将来自所述第一源的第二元素与来自所述第二源的第二元素相乘,以生成第二结果,将所述第一结果与所述第二结果相加,以生成第三结果;将所述第三结果与来自所述目的地的元素位置的元素相加,以生成第四结果,以及将所述第四结果存储在所述目的地的元素位置中。2.如权利要求1所述的装置,其中,所述执行电路还用于结合将所述第一结果和所述第二结果相加来执行舍入。3.如权利要求1或2所述的装置,其中,所述执行电路还用于执行将所述第三结果与来自所述目的地的元素位置的元素相加来执行舍入。4.如权利要求1

3中的任一项所述的装置,其中,所述第一源具有长度,并且所述第二源具有所述长度,所述长度是128位、256位或512位中的一个。5.如权利要求1

3中的任一项所述的装置,其中,所述目的地具有长度,所述长度是128位、256位或512位中的一个。6.一种方法,包括:对单条指令解码,所述单条指令具有用于指示操作码、紧缩目的地操作数、第一紧缩源操作数和第二紧缩源操作数的字段,其中,目的地的元素大小为32位,并且第一源的元素和第二源的元素大小为16位;执行与所述单条指令对应的操作,包括对于所述目的地的每个元素位置:将来自所述第一源的第一元素与来自所述第二源的第一元素相乘,以生成第一结果,将来自所述第一源的第二元素与来自所述第二源的第二元素相乘,以生成第二结果,将所述第一结果与所述第二结果相加,以生成第三结果;将所述第三结果与来自所述目的地的元素位置的元素相加,以生成第四结果...

【专利技术属性】
技术研发人员:R瓦伦丁G利夫钦P马吉切尔MJ查尼E奥尔德艾哈迈德瓦尔J科巴尔MB格卡尔Z斯珀伯S鲁巴诺维奇A格拉德斯坦
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1