使用硬件队列设备的多核心通信加速制造技术

技术编号：18465929 阅读：19 留言：0更新日期：2018-07-18 15:59

实现硬件队列管理设备的装置和方法，该硬件队列管理设备用于通过从CPU核心卸载请求管理和数据一致性任务来减少核心间的数据传输开销。所述装置包括多核心处理器、共享的L3或末级高速缓存（“LLC”）、以及硬件队列管理设备用以接收、存储和处理核心间的数据传输请求。硬件队列管理设备进一步包括资源管理系统用以控制核心可以提交请求以减少核心停机和丢弃的请求的速率。此外，引入软件指令来优化核心与队列管理设备之间的通信。

Multi core communication acceleration using hardware queue devices

The device and method for implementing the hardware queue management device, which is used to reduce the data transmission overhead between the core by uninstalling the request management and data consistency tasks from the CPU core. The device includes a multi core processor, a shared L3 or a last stage cache (\LLC\), and a hardware queue management device for receiving, storing, and processing data transmission requests between the core. The hardware queue management device further includes a resource management system to control the rate of requests that the core can submit to reduce core downtime and discarding requests. In addition, software instructions are introduced to optimize communication between core and queue management devices.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用硬件队列设备的多核心通信加速
技术介绍
核心对核心（“C2C”）通信现今在诸如分组处理、高性能计算、机器学习和数据中心/云工作负荷之类的许多计算机应用中是至关重要的。在芯片多处理器（“CMP”）架构中，由于核心的数量增加，C2C通信经常在工作负荷共享数据时变成性能增减的限制因素。在通用平台上，经常采用核心之间的共享存储器空间来实现有效的C2C通信。然而，对由软件来来仔细管理共享存储器空间的需要连同硬件一致性通信量上的增加趋向于引发大量的开销。因此，共享一致性高速缓存的CPU核心和片上网络（“NoC”）设计通常实质上经历更长的等待时间和更高的数据通信量，同时消耗可观的资源来实行通信相关的工作。这阻止了CPU核心和NoC实行它们所意图的数据处理任务。一般而言，通常在CMP平台上使用诸如经典兰伯特（Lamport）算法之类的软件队列来实现C2C通信。存在两种类型的在传统软件队列中生成的开销。第一种包括由队列结构维护和同步以及由共享存储器的流控制和管理所消耗的循环。这种类型的开销被称为控制层面开销。第二种类型的开销包含在将数据从一个核心移动到另一个核心时花费的循环。这种类型的开销被称为数据层面开销。控制层面开销和数据层面开销的总和构成跨核心传输数据所需要的总开销。存在软件优化和硬件优化两者可用于减轻这些开销。来自DPDK库的RTE环代码（软件优化）和利用飞思卡尔（Freescale）的DPAA技术的硬件加速排队（硬件优化）是当今现有的优化技术的示例。然而，这些现有的优化在减少核心对核心通信开销上都不是理想。当涉及同时减少控制层面开销和数据层面开销两者时尤其如此。附图...

【技术保护点】
1.一种装置，包括：一个或多个存储器缓冲器，用以接收和存储由一个或多个请求器提交的多个传入请求，其中所述多个传入请求包括入列请求和出列请求；调度器设备，用以根据调度策略从存储在一个或多个硬件存储器缓冲器之一中的多个传入请求选择请求；排队设备，用以处理所选择的请求，其中所述排队设备包括入列设备用以将数据插入到内部存储单元中并且包括出列设备用以从所述内部存储单元取回数据并且将所取回的数据发送到所述一个或多个请求器。

【技术特征摘要】
【国外来华专利技术】2016.01.04 US 14/9876761.一种装置，包括：一个或多个存储器缓冲器，用以接收和存储由一个或多个请求器提交的多个传入请求，其中所述多个传入请求包括入列请求和出列请求；调度器设备，用以根据调度策略从存储在一个或多个硬件存储器缓冲器之一中的多个传入请求选择请求；排队设备，用以处理所选择的请求，其中所述排队设备包括入列设备用以将数据插入到内部存储单元中并且包括出列设备用以从所述内部存储单元取回数据并且将所取回的数据发送到所述一个或多个请求器。2.根据权利要求1所述的装置，其中所述一个或多个存储器缓冲器是先入先出（FIFO）缓冲器。3.根据权利要求1至2中的任一项所述的装置，其中所述调度策略是轮询策略。4.根据权利要求1至2中的任一项所述的装置，其中所述调度策略是加权轮询策略。5.根据权利要求1至2中的任一项所述的装置，其中所述调度策略是抢占优先策略。6.根据权利要求1至5中的任一项所述的装置，其中所述内部存储单元能配置成支持变化的长度和大小的数据。7.根据权利要求1至6中的任一项所述的装置，进一步包括资源管理器设备，用以根据资源策略为所述一个或多个请求器中的每一个在可以由所述一个或多个请求器中的每一个提交的传入请求的数量上设定一个或多个限制。8.根据权利要求7所述的装置，其中所述资源策略包括全局资源池和多个局部资源池，所述全局资源池用以基于信誉度补充策略来提供要在所述多个局部资源池中分发的资源信誉度。9.根据权利要求8所述的装置，其中所述多个局部资源池中的每一个对应于所述一个或多个请求器之一，并且在给定的局部资源池中的资源信誉度确定可以由该局部资源池的对应请求器所提交的请求的数量。10.根据权利要求8至9中的任一项所述的装置，其中所述资源信誉度包括入列信誉度用以允许所述一个或多个请求器提交入列请求并且包括出列信誉度用以允许所述一个或多个请求器提交出列请求。11.根据权利要求8至10中的任一项所述的装置，其中所述信誉度补充策略是轮询策略。12.根据权利要求8至10中的任一项所述的装置，其中所述信誉度补充策略是加权轮询策略。13.根据权利要求8至10中的任一项所述的装置，其中所述信誉度补充策略是抢占优先策略。14.根据权利要求1至13中的任一项所述的装置，其中要被插入到所述内部存储单元中的每个数据块与元数据标签进行组合用以指示所述数据应当如何由所述入列设备和所述出列设备处置。15.根据权利要求14所述的装置，其中所述元数据标签包括原子参数用以指示是否应当将所取回的数据一次仅发送到一个请求器。16.根据权利要求14至15中的任一项所述的装置，其中所述元数...

【专利技术属性】
技术研发人员：王任，Y王，AJ赫德里希，蔡志贤，戴宗元，ND麦克特纳尔，H威尔金森，BA布雷斯，B理查森，NN文卡特桑，D伯恩斯坦，E弗普兰克，SR范多伦，A严，A库宁厄姆，D索尼尔，G伊兹，JT克莱，JD怀特塞尔，J皮罗格，J肯尼，JR哈斯丁，N范加蒂，S米勒，TK马，W布勒斯，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人