【技术实现步骤摘要】
合并相邻的聚集/分散操作本申请是国际申请号为PCT/US2012/071688,国际申请日为2012/12/26,进入中国国家阶段的申请号为201280076796.8,题为“合并相邻的聚集/分散操作”的专利技术专利申请的分案申请。
本专利技术的领域总体涉及处理器架构,更具体地说,涉及用于合并聚集分散操作的技术。
技术介绍
为了充分利用单指令多数据(SIMD)处理器,将聚集(gather)指令用于从存储器中读取一组(可能的)非连续源数据元素,并且通常将它们一起紧缩(pack)到单个寄存器中。分散(scatter)指令做相反的动作。在一些实例中,已知存储器中的这些数据元素彼此连续。遗憾的是,常规的聚集和分散指令不利用该已知信息,因此降低了SIMD处理器的效率。附图说明在所附附图的多个图中,以示例方式而非限制方式说明本专利技术的多个实施例,在附图中,同样的参考标号指示类似的元件。图1A示出源代码片段。图1B示出当图1A中源代码的加载/存储指令被向量化时所得到的聚集/分散操作。图2是根据本专利技术的一个实施例的处理器或处理器核的执行流水线的框图。图3A到3E是示出合并三 ...
【技术保护点】
一种处理器,包括:多个64位通用寄存器;多个128位单指令多数据(SIMD)寄存器;数据高速缓存器;指令高速缓存器;第二级(L2)高速缓存器,耦合至所述数据高速缓存器,并且耦合至所述指令高速缓存器;分支预测单元;指令转换后备缓冲器(TLB),耦合至所述指令高速缓存器;指令取出单元;解码单元,耦合至所述指令取出单元,所述解码单元用于对多个指令解码,所述多个指令包括第一指令,所述第一指令用于指示128位操作数尺寸,所述第一指令具有第一字段和第二字段,所述第一字段用于指定所述多个128位SIMD寄存器中的第一128位SIMD目的地寄存器,所述第二字段用于指定所述多个64位通用寄存 ...
【技术特征摘要】
1.一种处理器,包括:多个64位通用寄存器;多个128位单指令多数据(SIMD)寄存器;数据高速缓存器;指令高速缓存器;第二级(L2)高速缓存器,耦合至所述数据高速缓存器,并且耦合至所述指令高速缓存器;分支预测单元;指令转换后备缓冲器(TLB),耦合至所述指令高速缓存器;指令取出单元;解码单元,耦合至所述指令取出单元,所述解码单元用于对多个指令解码,所述多个指令包括第一指令,所述第一指令用于指示128位操作数尺寸,所述第一指令具有第一字段和第二字段,所述第一字段用于指定所述多个128位SIMD寄存器中的第一128位SIMD目的地寄存器,所述第二字段用于指定所述多个64位通用寄存器中的一个64位通用寄存器来存储基址,并且所述第一指令用于指示64位的数据元素宽度;和执行单元,耦合至所述解码单元,耦合至所述多个128位SIMD寄存器,并且耦合至所述多个64位通用寄存器,所述执行单元用于:根据所述基址,加载来自存储器的第一结构和第二结构,所述第一结构包括第一64位数据元素、第二64位数据元素和第三64位数据元素,所述第二结构包括第一64位数据元素、第二64位数据元素和第三64位数据元素,其中第一结构的第一64位数据元素、第二64位数据元素和第三64位数据元素将是所述存储器中连续元素,所述第二结构的第一64位数据元素、第二64位数据元素和第三64位数据元素将是所述存储器中连续元素;并且将所述第一结构的所述第一64位数据元素存储为所述第一128位SIMD目的地寄存器的第一64位数据元素,将所述第一结构的所述第二64位数据元素存储为所述第二128位SIMD目的地寄存器的第一64位数据元素,将所述第一结构的所述第三64位数据元素存储为所述第三128位SIMD目的地寄存器的第一64位数据元素,将所述第二结构的所述第一64位数据元素存储为所述第一128位SIMD目的地寄存器的第二64位数据元素,将所述第二结构的所述第二64位数据元素存储为所述第二128位SIMD目的地寄存器的第二64位数据元素,将所述第二结构的所述第三64位数据元素存储为所述第三128位SIMD目的地寄存器的第二64位数据元素,其中所述第一128位SIMD目的地寄存器的所述第一64位数据元素包括所述第一128位SIMD目的地寄存器的最低有效位,所述第二128位SIMD目的地寄存器的所述第一64位数据元素包括所述第二128位SIMD目的地寄存器的最低有效位,所述第三128位SIMD目的地寄存器的所述第一64位数据元素包括所述第三128位SIMD目的地寄存器的最低有效位。2.如权利要求1所述的处理器,其特征在于,所述第一指令具有数据元素宽度字段,用于指示64位的所述数据元素宽度。3.如权利要求1所述的处理器,其特征在于,所述第一指令的单个位用于指示所述128位操作数尺寸。4.如权利要求1所述的处理器,其特征在于,所述第一、第二和第三128位SIMD目的地寄存器是寄存器序列。5.如权利要求1所述的处理器,其特征在于,所述处理器具有精简指令集计算(RISC)构架。6.如权利要求1所述的处理器,其特征在于,包括重排序缓冲器。7.一种服务器,包括:所述服务器的外围组件互连高速(PCIe)接口;和如权利要求1-6中任何一项所述的处理器。8.如权利要求7所述的服务器,其特征在于,所述处理器耦合至协处理器,其中所述协处理器是网络处理器。9.如权利要求7所述的服务器,其特征在于,所述处理器包括存储器控制器。10.如权利要求7所述的服务器,其特征在于,还包括数据储存器。11.如权利要求7所述的服务器,其特征在于,还包括存储器。12.如权利要求7所述的服务器,其特征在于,还包括一个或更多个I/O设备。13.如权利要求7所述的服务器,其特征在于,还包括功率控制单元。14.如权利要求7所述的服务器,其特征在于,还包括通过网络与一个或更多个其他电子设备通信的设备。15.一种服务器,包括:所述服务器的外围组件互连高速(PCIe)接口;存储器;数据储存器;和如权利要求1-6中任何一项所述的处理器。16.如权利要求15所述的服务器,其特征在于,所述处理器耦合至协处理器,其中所述协处理器是网络处理器。17.如权利要求15所述的服务器,其特征在于,所述处理器包括存储器控制器。18.如权利要求15所述的服务器,其特征在于,还包括一个或更多个I/O设备。19.如权利要求15所述的服务器,其特征在于,还包括功率控制单元。20.如权利要求15所述的服务器,其特征在于,还包括通过网络与一个或更多个其他电子设备通信的设备。21.一种片上系统(SoC),包括:集成存储器控制器单元;通信设备;和如权利要求1-6中任何一项所述的处理器。22.如权利要求21所述的片上系统,其特征在于,还包括耦合至一个或更多个显示器的显示逻辑。23.如权利要求21所述的片上系统,其特征在于,还包括图形处理单元(GPU)。24.如权利要求21所述的片上系统,其特征在于,还包括图像处理器。25.一种系统,包括:存储器;图形处理单元(GPU);和如权利要求1-6中任何一项所述的处理器。26.如权利要求25所述的系统,其特征在于,还包括显示设备...
【专利技术属性】
技术研发人员:A·T·福塞斯,B·J·希克曼,J·C·豪尔,C·J·休斯,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。