当前位置: 首页 > 专利查询>英特尔公司专利>正文

四字16制造技术

技术编号:36107611 阅读:13 留言:0更新日期:2022-12-28 14:08
本申请公开了四字16

【技术实现步骤摘要】
四字16
×
16乘法和累加的双求和

技术介绍

[0001]在使用32位、16位、8位、4位整数数据类型(其中,数据是有符号的并且过滤器是无符号的)的感测应用(如卷积神经网络)中的若干种感测应用中。这些应用利用图像数据和不同的过滤器来执行点积操作。还存在如人类检测、基于雷达的手势识别等点积操作中涉及多个通道。
附图说明
[0002]将参考附图来描述根据本公开的各实施例,其中:
[0003]图1图示DVPDPWSUQ或DVPDPWUSQ指令的示例性执行。
[0004]图2图示用于处理诸如DVPDPWSUQ或DVPDPWUSQ指令之类的指令的硬件的实施例。
[0005]图3图示用于处理无符号字和有符号字的向量紧缩乘法和64位的累加或者有符号字和无符号字的向量紧缩乘法和64位的累加的方法的实施例。
[0006]图4图示无符号字和有符号字的向量紧缩乘法和累加指令或者有符号字和无符号字的向量紧缩乘法和累加指令的执行的实施例。
[0007]图5图示无符号字和有符号字的向量紧缩乘法和累加指令或者有符号字和无符号字的向量紧缩乘法和累加指令的伪代码的实施例。
[0008]图6图示示例性系统的实施例。
[0009]图7图示可具有多于一个的核、可具有集成存储器控制器、并且可具有集成图形器件的处理器的实施例的框图。
[0010]图8(A)是图示根据本专利技术的实施例的示例性有序流水线和示例性的寄存器重命名的乱序发布/执行流水线两者的框图。
[0011]图8(B)是图示根据本专利技术的各实施例的要包括在处理器中的有序架构核的示例性实施例和示例性的寄存器重命名的乱序发布/执行架构核两者的框图。
[0012]图9图示(多个)执行单元电路的实施例,诸如图8(B)的(多个)执行单元电路。
[0013]图10是根据一些实施例的寄存器架构的框图。
[0014]图11图示指令格式的实施例。
[0015]图12图示寻址字段的实施例。
[0016]图13图示第一前缀的实施例。
[0017]图14(A)

图14(D)图示如何使用第一前缀1101(A)的R、X和B字段的实施例。
[0018]图15(A)

图15(B)图示第二前缀的实施例。
[0019]图16图示第三前缀的实施例。
[0020]图17图示根据本专利技术的实施例的、对照使用软件指令转换器将源指令集中的二进制指令转换成目标指令集中的二进制指令的框图。
具体实施方式
[0021]本公开涉及用于使用一条或多条指令处置第一尺寸的无符号数据元素和有符号
数据元素的向量紧缩乘法和累加、以及与第二尺寸的数据元素的累加的方法、装置、系统和非暂态计算机可读存储介质。
[0022]一些处理器核的当前版本使用乘法整数指令来完成点积操作。不幸的是,此种方式对应一些应用而言可能不够快和/或不支持使用有符号和无符号值。对于执行16位无符号和有符号整数数据类型的点积的感测算法中的许多感测算法,指令的实施例改善了性能并实现了用于客户产品的新的传感器用例。这还有助于减少代码存储器占用空间(footprint)。对于若干感测算法,紧缩点积操作还提供了性能增益。点积通常用于FIR滤波器、基于雷达的人类检测、姿势识别以及统计学分析。算法执行之后的减少的代码占用空间和性能改善也有助于降低功率。
[0023]在一些实施例中,第一指令为DVPDPWUSQ xmm1,xmm2,xmm3/m128指令,该指令在被处理时引起无符号字和有符号字的向量紧缩乘法和64位的累加。在一些实施例中,第二指令为DVPDPWSUQ xmm1,xmm2,xmm3/m128指令,该指令在被处理时引起有符号字和无符号字的向量紧缩乘法和64位的累加。
[0024]图1图示DVPDPWSUQ或DVPDPWUSQ指令的示例性执行。尽管该示图按照小端(little endian)格式,但是本文讨论的原理按大端(big endian)格式也起作用。DVPDPWSUQ或DVPDPWUSQ指令包括用于目的地/源(紧缩数据(SIMD/向量)目的地/源(DST/SOURCE)105)和两个源(紧缩数据源1(SRC1)101和紧缩数据源2(SRC2)103)的字段。在一些实施例中,紧缩数据(或SIMD或向量)元素是16位的(字)。注意,最终结果在被存储在目的地/源中时包括两个64位的(四字)值。然而,在一些实施例中,使用尺寸为32位和128位、64位和256位、64位和512位等等的其他数据元素组合。注意,取决于指令,源中的一者具有有符号值(例如,有符号整数)并且另一者具有无符号值。另外,操作数自身的尺寸可能在尺寸上有所不同,诸如例如,32位紧缩数据操作数(例如,32位寄存器或存储器位置)、64位、128位、256位、512位等。
[0025]紧缩数据源1 101包括8个紧缩数据元素。取决于实现方式,紧缩数据源1 101是紧缩数据寄存器(例如,128位(例如,XMM)、256位(例如,YMM)、512位(例如,ZMM)、向量、SIMD等寄存器)或存储器位置。
[0026]紧缩数据源2 103包括8个紧缩数据元素。取决于实现方式,紧缩数据源2 103是紧缩数据寄存器(例如,XMM、YMM、ZMM、向量、SIMD等寄存器)或存储器位置。
[0027]将两个紧缩数据源101、103馈送到执行电路111中以对其进行操作。如所示,执行电路111包括输入多路复用器(MUX)121,以将来自紧缩数据源101和103的输入值多路复用到特定的乘法器(如内部具有X的圆所示)。具体而言,将来自紧缩数据源101和103的对应数据元素位置(例如,源1的数据元素位置A和源2的数据元素位置A)的值相乘。在一些实施例的值,16位的值从多路复用器121被馈送至乘法器。
[0028]这些乘法器的输出被馈送到两个加法器网络122和123中的一者。将紧缩数据源101和103的最低有效的数据元素位置相乘的结果馈送到加法器网络123中,并且将紧缩数据源101和103的最高有效的数据元素位置相乘的结果馈送到加法器网络122中,以将乘积相加。加法器网络122和123还对所加的乘积进行符号扩展。
[0029](具有累加器124和125的)累加器层将加法器网络122和123的结果与目的地/源105中现有的值相加,并将加法的结果存储在目的地/源105中。注意,加法采用与紧缩数据
源101和103的数据元素不同的尺寸。例如,将两个64位值相加。在一些实施例中,从目的地/源105提供的值是65位值。
[0030]图2图示用于处理诸如DVPDPWSUQ或DVPDPWUSQ指令之类的指令的硬件的实施例。如图所示,存储203存储要被执行的DVPDPWSUQ或DVPDPWUSQ指令201。
[0031]指令201由解码电路205接收。例如,解码电路205从取出逻辑/电路接收该指令。如上文所指示,指令包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种装置,包括:解码器电路,所述解码器电路用于对单条指令进行解码,其中,所述单条指令用于包括用于操作码的字段、用于指示源/目的地操作数的位置的一个或多个字段、用于指示第一源操作数的位置的一个或多个字段、以及用于指示第二源操作数的位置的一个或多个字段,其中,所述操作码用于指示执行电路用于:将来自所述第一源操作数和所述第二源操作数的对应数据元素的值相乘,将所乘的值的第一子集与来自所述源/目的地操作数的第一值相加并存储在所述源/目的地操作数的第一数据元素位置中,以及将所乘的值的第二子集与来自所述源/目的地操作数的第二值相加并存储在所述源/目的地操作数的第二数据元素位置中;以及执行电路,所述执行电路用于根据所述操作码来执行经解码的指令。2.如权利要求1所述的装置,其中,用于所述第一源操作数的标识符的字段用于标识向量寄存器。3.如权利要求1所述的装置,其中,用于所述第一源操作数的标识符的字段用于标识存储器位置。4.如权利要求1

3中任一项所述的装置,其中,所述操作码用于指示所述第一源操作数的数据元素是有符号的并且所述第二源操作数的数据元素是无符号的。5.如权利要求1

4中任一项所述的装置,其中,所述第一源操作数的数据元素和所述第二源操作数的数据元素是16位整数值。6.如权利要求5所述的装置,其中,所述源/目的地操作数的数据元素是64位整数值。7.如权利要求1

6中任一项所述的装置,其中,所述操作码用于指示所述第一源操作数、所述第二源操作数、以及所述源/目的地操作数的数据元素尺寸。8.一种非暂态机器可读介质,存储单条指令的实例,所述单条指令在由机器处理时使所述机器执行方法,所述方法包括:对所述单条指令进行解码,其中,所述单条指令用于包括用于操作码的字段、用于指示源/目的地操作数的位置的一个或多个字段、用于指示第一源操作数的位置的一个或多个字段、以及用于指示第二源操作数的位置的一个或多个字段,其中,所述操作码用于指示执行电路用于:将来自所述第一源操作数和所述第二源操作数的对应数据元素的值相乘,将所乘的值的第一子集与来自所述源/目的地操作数的第一值相加并存储在所述源/目的地操作数的第一数据元素位置中,以及将所乘的值的第二子集与来自所述源/目的地操作数的第二值相加并存储在所述源/目的地操作数的第二数据元素位置中;以及根据所述操作码执行经解码的指令。9.如权利要求8所述的非暂态机器可读介质,其中,用于所述第一源操作数的标识符的字段用于标识向量寄存器。10.如权利要求8所述的非暂态机器可读介质,其中,用于所述第一源操作数的标识符的字段用于标识存储器位置。11.如权利要求8

10中任一项所述的非暂态机器可读介质,其中,所述操作码用于指示
所述第一源操作数的数据元素是有符号的并且所述第二源操作数的数据元素是无符号的。12.如权利要求8
...

【专利技术属性】
技术研发人员:V
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1