当前位置: 首页 > 专利查询>英特尔公司专利>正文

用于处理稀疏数据的装置和方法制造方法及图纸

技术编号:18427469 阅读:25 留言:0更新日期:2018-07-12 02:15
本申请涉及用于处理稀疏数据的加速器的装置和方法。例如,一个实施例包括在其上存储有程序代码的机器可读介质,所述程序代码当由处理器执行时使处理器执行以下的操作:鉴于加速器架构模板来分析与目标加速器相关联的输入图形程序代码和参数;响应性地将参数映射到架构模板上,以实现对加速器架构模板的定制;和基于应用于加速器架构模板的参数的所确定映射来生成目标加速器的硬件描述表示。

【技术实现步骤摘要】
用于处理稀疏数据的装置和方法
本专利技术大体上涉及计算机处理器和加速器的领域。更具体地说,本专利技术涉及用于处理稀疏数据的装置和方法。
技术介绍
图形分析依赖于图形算法来提取关于表示为图形的数据之间的关系的知识。图形数据(来自诸如社交媒体之类的源)的激增导致了对图形分析的强烈需求和广泛使用。因此,能够尽可能高效地进行图形分析是至关重要的。存在现有的图形分析框架,但它们主要是软件框架(即,在GPGPU的CPU上运行)。对于将图形算法映射到定制硬件的有限图形框架,其目标硬件加速器架构不是基于广义稀疏矩阵向量乘的。存在现有的稀疏矩阵乘法硬件加速器,但它们不支持可定制性以允许图形算法的映射。附图说明可以结合以下附图从下面的详细描述中获得对本专利技术更好的理解,其中:图1A和1B是图示根据本专利技术的实施例的通用向量友好指令格式及其指令模板的框图;图2A-D是图示根据本专利技术的实施例的示例性特定向量友好指令格式的框图;图3是根据本专利技术的一个实施例的寄存器架构的框图;和图4A是图示根据本专利技术的实施例的示例性有序取出、解码、收回(retire)流水线以及示例性寄存器重命名、无序发布/执行流水线两者的框图;图4B是图示根据本专利技术的实施例的要在处理器中包括的有序取出、解码、收回核和示例性寄存器重命名、无序发布/执行架构核两者的框图;图5A是单个处理器核连同其到管芯上互连网络的连接的框图;图5B图示了根据本专利技术的实施例的图5A中的处理器核的部分的扩展视图;图6是根据本专利技术的实施例的具有集成存储器控制器和图形的单核处理器和多核处理器的框图;图7图示了根据本专利技术的一个实施例的系统的框图;图8图示了根据本专利技术的实施例的第二系统的框图;图9图示了根据本专利技术的实施例的第三系统的框图;图10图示了根据本专利技术的实施例的片上系统(SoC)的框图;图11图示了根据本专利技术的实施例的对比将源指令集中的二进制指令转换为目标指令集中的二进制指令的软件指令转换器的使用的框图;图12图示了可以在其上实现本专利技术的实施例的架构;图13图示了用于处理稀疏数据的架构的一个实施例;图14图示了在一个实施例中采用的不同的稀疏数据操作;图15a-c图示了一个实施例中的用于矩阵数据的格式;图16a-c图示了用于在一个实施例中执行的操作的伪代码;图17图示了一个实施例中的处理器元件架构;图18a-b图示了根据一个实施例的数据流;图19a-e图示了根据一个实施例的绘图数据和程序代码;图20图示了在一个实施例中采用的模板映射、验证和自动调整;图21图示了数据管理单元和处理器元件架构的一个实施例;图22图示了根据本专利技术的一个实施例的方法;图23a-b图示了不同的类别和调整考虑;和图24图示了根据本专利技术的一个实施例的方法的一个实施例。具体实施方式在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对下面描述的本专利技术的实施例的透彻理解。然而,对于本领域技术人员清楚明白的是,可以在没有这些具体细节中的一些的情况下实践本专利技术的实施例。在其他实例中,以框图形式示出了公知的结构和设备,以避免模糊本专利技术的实施例的基本原理。示例性处理器架构和数据类型指令集包括一个或多个指令格式。给定指令格式还限定了各种字段(位数、位的位置),用以除其他事物之外尤其指定要执行的操作(操作码)和要在其上执行该操作的(多个)操作数。一些指令格式通过指令模板(或子格式)的限定进一步分解。例如,给定指令格式的指令模板可以被限定为具有指令格式的字段的不同子集(所包括的字段通常采用相同的次序,但是至少一些具有不同的位位置,因为存在较少的所包括的字段)和/或被限定为具有不同解释的给定字段。因此,ISA的每个指令使用给定指令格式(以及如果限定,则在该指令格式的指令模板中的给定一个中)来表达,并且包括用于指定操作和操作数的字段。例如,示例性ADD指令具有特定的操作码和指令格式,指令格式包括用于指定该操作码的操作码字段和用于选择操作数(源1/目的地和源2)的操作数字段;并且在指令流中的该ADD指令的出现将在选择特定操作数的操作数字段中具有特定的内容。已经发行和/或公布了一组SIMD扩展,称为高级向量扩展(AVX)(AVX1和AVX2)并使用向量扩展(VEX)编码方案(例如,参见Intel®64和IA-32架构软件开发人员手册,2011年10月;并参见Intel®高级向量扩展编程参考,2011年6月)。示例性指令格式本文描述的(多个)指令的实施例可以以不同的格式来体现。此外,下面详述了示例性系统、架构和流水线。(多个)指令的实施例可以在这样的系统、架构和流水线上执行,但不限于那些详述的。A.通用向量友好指令格式向量友好指令格式是适合于向量指令的指令格式(例如,存在特定于向量操作的某些字段)。虽然描述了其中通过向量友好指令格式支持向量和标量操作这二者的实施例,但是替代实施例仅使用向量操作向量友好指令格式。图1A-1B是图示根据本专利技术的实施例的通用向量友好指令格式及其指令模板的框图。图1A是图示根据本专利技术的实施例的通用向量友好指令格式及其A类指令模板的框图;而图1B是图示根据本专利技术的实施例的通用向量友好指令格式和其B类指令模板的框图。具体而言,针对其限定了A类和B类指令模板的通用向量友好指令格式100,A类和B类两者都包括无存储器访问105指令模板和存储器访问120指令模板。在向量友好指令格式的上下文中的术语“通用”指的是指令格式不绑定到任何特定指令集。虽然将描述其中向量友好指令格式支持以下内容的本专利技术的实施例:具有32位(4字节)或64位(8字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小)(并且因此,64字节向量由16个双字大小元素构成,或者替代地由8个四字大小元素构成);具有16位(2字节)或8位(1字节)数据元素宽度(或大小)的64字节向量操作数长度(或大小);具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的32字节向量操作数长度(或大小);和具有32位(4字节)、64位(8字节)、16位(2字节)或8位(1字节)数据元素宽度(或大小)的16字节向量操作数长度(或大小);但是替代实施例可以支持具有更多、更少或不同数据元素宽度(例如,128位(16字节)数据元素宽度)的更多、更少和/或不同向量操作数大小(例如,256字节向量操作数)。图1A中的A类指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问全部舍入(round)控制类型操作110指令模板和无存储器访问数据变换类型操作115指令模板;和2)在存储器访问120指令模板内,示出了存储器访问临时125指令模板和存储器访问非临时130指令模板。图1B中的B类指令模板包括:1)在无存储器访问105指令模板内,示出了无存储器访问写入掩码控制部分舍入控制类型操作112指令模板和无存储器访问写入掩码控制vsize类型操作117指令模板;和2)在存储器访问120指令模板内,示出了存储器访问写入掩码控制127指令模板。通用向量友好指令格式100包括下面以图1A-1B所示的次序列出的以下字段。格式字段140——该字段中的特定值(指令格式标识符值)唯一地标识向量友好指令格式和因此在指令流中的向量友好指令格式中的指令本文档来自技高网...

【技术保护点】
1.一种在其上存储有程序代码的机器可读介质,所述程序代码当由处理器执行时使所述处理器执行以下的操作:鉴于加速器架构模板来分析与目标加速器相关联的输入图形程序代码和参数;响应性地将参数映射到架构模板上,以实现对加速器架构模板的定制;和基于应用于加速器架构模板的参数的所确定映射来生成目标加速器的硬件描述表示。

【技术特征摘要】
2016.12.30 US 15/3949681.一种在其上存储有程序代码的机器可读介质,所述程序代码当由处理器执行时使所述处理器执行以下的操作:鉴于加速器架构模板来分析与目标加速器相关联的输入图形程序代码和参数;响应性地将参数映射到架构模板上,以实现对加速器架构模板的定制;和基于应用于加速器架构模板的参数的所确定映射来生成目标加速器的硬件描述表示。2.根据权利要求1所述的机器可读介质,其中硬件描述表示包括可合成寄存器传送级(RTL)代码。3.根据权利要求1或2所述的机器可读介质,其中所述参数中的至少一个包括用于目标加速器的片上存储器的最大量。4.根据权利要求1或3所述的机器可读介质,还包括使所述机器执行以下的操作的程序代码:分析与目标加速器相关联的设计优化目标,以及部分地基于设计优化目标来确定定制。5.根据权利要求4所述的机器可读介质,其中设计优化目标包括用于目标加速器的最大性能级别和/或最小硅面积。6.根据权利要求1或2所述的机器可读介质,还包括使所述机器执行以下的操作的程序代码:分析与目标加速器相关联的设计优化目标,以及部分地基于设计优化目标来确定定制。7.根据权利要求1或6所述的机器可读介质,其中输入图形程序代码包括以顶点为中心的图形编程抽象。8.根据权利要求1、4或7所述的机器可读介质,其中所述程序代码要使所述机器执行以下的附加操作:验证所生成的硬件描述表示的功能和性能。9.根据权利要求1或4所述的机器可读介质,其中所述程序代码要使所述机器执行以下的附加操作:基于设计优化目标来执行自动调整以优化所生成的硬件描述表示。10.根据权利要求9所述的机器可读介质,其中基于包括数据的局部性、图形数据大小、图形计算功能、图形数据结构、图形数据访问属性、图形数据类型和/或图形数据模式的调整考虑来执行自动调整。11.根据权利要求1或10所述的机器可读介质,其中加速器架构模板包括可用于生成硬件描述表示的可定制逻辑块。12.根据权利要求11所述的机器可读介质,其中可定制逻辑块限定目标加速器的多个处理元件内的功能单元。13.根据权利要求12所述的机器可读介质,其中功能单元...

【专利技术属性】
技术研发人员:E努尔维塔希Y王DT马尔
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1