【技术实现步骤摘要】
掩码置换指令的装置和方法本申请是PCT国际申请号为PCT/US2011/067090、国际申请日为2011年12月23日、中国国家申请号为201180075800.4、题为“掩码置换指令的装置和方法”的申请的分案申请。
本专利技术一般涉及计算科学,且更具体地涉及改进置换指令的装置和方法。
技术介绍
图1示出了在半导体芯片上用逻辑电路实现的处理核100的高级图。该处理核包括流水线101。该流水线由各自被设计成在完全执行程序代码指令所需的多步骤过程中执行特定步骤的多个级组成。这些级通常至少包括:1)指令取出和解码;2)数据取出;3)执行;4)写回。执行级对由在先前级(例如在上述步骤1))中所取出和解码的指令所标识并在另一先前级(例如在上述步骤2))中被取出的数据执行由在先前级(例如在上述步骤1))中取出和解码的指令所标识的特定操作。被操作的数据通常是从(通用)寄存器存储空间102中取出的。在该操作完成时所创建的新数据通常也被“写回”寄存器存储空间(例如在上述级4))。与执行级相关联的逻辑电路通常由多个“执行单元”或“功能单元”103_1至103_N构成,这些单元各自被设计成执行其自身的唯一操作子集(例如,第一功能单元执行整数数学操作,第二功能单元执行浮点指令,第三功能单元执行从高速缓存/存储器的加载操作和/或到高速缓存/存储器的存储操作等等)。由所有这些功能单元执行的所有操作的集合与处理核100所支持的“指令集”相对应。计算机科学领域中广泛认可两种类型的处理器架构:“标量”和“向量”。标量处理器被设计成执行对单个数据集进行操作的指令,而向量处理器被设计成执行对 ...
【技术保护点】
一种装置,包括:解码器,用于将指令解码成经解码指令;以及执行单元,用于执行所述经解码指令以:对于输出掩码向量的多个输出向量元素位置中的每一个,将来自输入掩码向量中能用于作为输出向量元素的源的多个输入向量元素位置之一的输入向量元素路由至输出向量元素位置中,所述输出向量元素以及每个所述输入向量元素为所述指令的三个可用位宽中的一个,所述多个输入向量元素位置对应于所述输入掩码向量连续分块,所述输入掩码向量连续分块小于所述输入掩码向量,以三个不同粒度级别中对应于所述三个可用位宽中的所述一个的一个粒度级别对所述输出掩码向量进行掩码操作,以创建结果,以及将所述结果存储在掩码寄存器中。
【技术特征摘要】
1.一种装置,包括:解码器,用于将指令解码成经解码指令;以及执行单元,用于执行所述经解码指令以:对于输出掩码向量的多个输出向量元素位置中的每一个,将来自输入掩码向量中能用于作为输出向量元素的源的多个输入向量元素位置之一的输入向量元素路由至输出向量元素位置中,所述输出向量元素以及每个所述输入向量元素为所述指令的三个可用位宽中的一个,所述多个输入向量元素位置对应于所述输入掩码向量连续分块,所述输入掩码向量连续分块小于所述输入掩码向量,以三个不同粒度级别中对应于所述三个可用位宽中的所述一个的一个粒度级别对所述输出掩码向量进行掩码操作,以创建结果,以及将所述结果存储在掩码寄存器中。2.如权利要求1所述的装置,其中,所述执行单元用于执行所述经解码指令以便对所述三个可用位宽中的每一个:路由来自所述输入掩码向量的所有输入向量位置的所述输入向量元素。3.如权利要求l所述的装置,其中,所述输入掩码向量包括多个输入掩码向量。4.如权利要求1所述的装置,其中,所述三个可用位宽中的一个由所述指令的立即操作数来指定。5.如权利要求1所述的装置,其中,用于所述三个可用位宽中的一个的连续分块与用于所述三个可用位宽中的另一个的连续分块为相同尺寸。6.如权利要求5所述的装置,其中,所述相同尺寸为用于所述指令的最大结果向量尺寸的四分之一。7.如权利要求1所述的装置,其中,所述执行单元用于执行所述经解码指令以将相同输入向量元素路由至多个输出向量位置。8.如权利要求1至7中任一项所述的装置,其中,所述指令进一步包括索引向量,所述索引向量为所述输出掩码向量中的每个位位置清楚表明哪个具体的输入向量元素将被用来填充所述输出掩码向量中的对应元素。9.一种方法,包括:通过处理器的解码器来将指令解码成经解码指令;以及通过所述处理器的执行单元来执行所述经解码指令以:对于输出掩码向量的多个输出向量元素位置中的每一个,将来自输入掩码向量中能用于作为输出向量元素的源的多个输入向量元素位置之一的输入向量元素路由至输出向量元素位置中,所述输出向量元素以及每个所述输入向量元素为用于所述指令的第一、第二和第三向量元素尺寸中的一个,并且所述多个输入向量元素位置对应于所述输入掩码向量连续分块,所述输入掩码向量连续分块小于所述输入掩码向量,以三个不同粒度级别中对应于所第一、第二和第三向量元素尺寸中的所述一个的一个粒度级别对所述输出掩码向量进行掩码操作,以创建结果;以及将所述结果存储在掩码寄存器中。10.如权利要求9所述的方法,其中,所述输入向量元素位置对应于所述输入掩码向量的所有输入向量位置。11.如权利要求9所述的方法,其中,所述输入掩码向量包括多个输入掩码向量。12.如权利要求9所述的方法,其中,所述第一、第二和第三向量元素尺寸中的所述一个由所述指令的立即操作数来指定。13.如权利要求9所述的方法,其中,所述第一和第二向量元素尺寸分别为32和64位。14.如权利要求9所述的方法,其中,所述第一、第二和第三向量元素尺寸分别为16、32和64位。15.如权利要求9所述的方法,其中,执行所述经解码指令以将相同输入向量元素路由至多个输出向量位置。16.如权利要求9至15中任一项所述的方法,其中,所述指令进一步包括索引向量,所述索引向量为所述输出掩码向量中的每个位位置清楚表明哪个具体的输入向量元素将被用来填充所述输出掩码向量中的对应元素。17.一种包括代码的机器可...
【专利技术属性】
技术研发人员:E·乌尔德阿迈德瓦尔,R·凡伦天,J·考博尔圣阿德里安,S·赛尔,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。