当前位置: 首页 > 专利查询>英特尔公司专利>正文

到硬件加速器的基于签名的自动迁移制造技术

技术编号:37977497 阅读:10 留言:0更新日期:2023-06-30 09:52
用于自动识别库函数和用加速器调用进行替换的技术可以包括:扫描程序代码以检测库签名或加速器标签中的一者或多者,在检测到加速器标签时,用加速器调用替换用加速器标签标记的库函数,并且在检测到库签名时,执行以下中的一项:用加速器调用替换与库签名相关联的库函数、或者将加速器标签应用于与库签名相关联的库函数以指示加速器调用用于替换库函数。当加速器标签被应用于与库签名相关联的库函数时,后续扫描被执行以检测所应用的标签并用加速器调用替换用加速器标签标记的库函数。速器调用替换用加速器标签标记的库函数。速器调用替换用加速器标签标记的库函数。

【技术实现步骤摘要】
到硬件加速器的基于签名的自动迁移


[0001]本公开总体上涉及数据处理,并且更具体地涉及经由处理器(诸如通用图形处理单元)进行的数据处理,以用于量子计算。

技术介绍

[0002]当前的并行图形数据处理包括被开发成对图形数据执行特定操作的系统和方法,这些特定操作诸如例如,线性内插、曲面细分、栅格化、纹理映射、深度测试等。传统意义上而言,图形处理器使用固定功能计算单元来处理图形数据。然而,更最近地,已使图形处理器的多个部分可编程,使得此类处理器能够支持更广泛种类的操作以处理顶点数据和片段数据。
[0003]为了进一步提升性能,图形处理器典型地实现诸如管线化之类的处理技术,这些处理技术尝试贯穿图形管线的不同部分并行地处理尽可能多的图形数据。具有单指令多线程(single instruction,multiple thread,SIMT)体系结构的并行图形处理器被设计成使图形管线中的并行处理的量最大化。在SIMT体系结构中,成组的并行线程尝试尽可能频繁地一起同步地执行程序指令以提高处理效率。可在Shane Cook的“CUDA编程”第3章第37

51页(2013年)中找到用于SIMT体系结构的软件和硬件的总体概述。
附图说明
[0004]因此,为了可详细地理解本实施例的特征的方式,可参照以下详细描述中的实施例进行对实施例的更特定的描述,在所附附图中图示实施例中的一些。然而,应注意的是,所附附图仅图示典型实施例,并且因此不应视为限制实施例的范围。
[0005]图1是图示配置成用于实现本文中描述的实施例的一个或多个方面的计算机系统的框图;
[0006]图2A

图2D图示并行处理器部件;
[0007]图3A

图3C是图形多处理器和基于多处理器的GPU的框图;
[0008]图4A

图4F图示在其中多个GPU通信地耦合至多个多核心处理器的示例性体系结构;
[0009]图5图示图形处理管线;
[0010]图6图示机器学习软件栈;
[0011]图7图示通用图形处理单元;
[0012]图8图示多GPU计算系统;
[0013]图9A

图9B图示示例性深度神经网络的层;
[0014]图10图示示例性循环神经网络;
[0015]图11图示深度神经网络的训练和部署;
[0016]图12A是图示分布式学习的框图;
[0017]图12B是图示可编程网络接口和数据处理单元的框图;
[0018]图13图示适于使用经训练的模型执行推断的示例性推断片上系统(system on a chip,SOC);
[0019]图14是处理系统的框图;
[0020]图15A

图15C图示计算系统和图形处理器;
[0021]图16A

图16C图示附加的图形处理器和计算加速器体系结构的框图;
[0022]图17是图形处理器的图形处理引擎的框图;
[0023]图18A

图18B图示包括在图形处理器核心中采用的处理元件的阵列的线程执行逻辑;
[0024]图19图示附加的执行单元;
[0025]图20是图示图形处理器指令格式的框图;
[0026]图21是附加的图形处理器体系结构的框图;
[0027]图22A

图22B图示图形处理器命令格式和命令序列;
[0028]图23图示用于数据处理系统的示例性图形软件体系结构;
[0029]图24A是图示IP核心开发系统的框图;
[0030]图24B图示集成电路封装组件的截面侧视图;
[0031]图24C图示封装组件,该封装组件包括连接到衬底(例如,基础管芯)的多个单元的硬件逻辑小芯片;
[0032]图24D图示包括可互换小芯片的封装组件;
[0033]图25是图示示例性片上系统集成电路的框图;
[0034]图26A

图26B是图示用于在SoC内使用的示例性图形处理器的框图;
[0035]图27是图示根据一个或多个实施例的性能增强的计算系统的示例的框图;
[0036]图28是图示根据一个或多个实施例的用于迁移工作负载的过程流程的示例的图;
[0037]图29是图示根据一个或多个实施例的在迁移工作负载中使用的技术的示例的图;
[0038]图30是图示根据一个或多个实施例的性能增强的计算系统的示例的图;
[0039]图31是图示根据一个或多个实施例的用于迁移工作负载的过程流程的示例的图;
[0040]图32是图示根据一个或多个实施例的用于迁移工作负载的过程流程的示例的图;
[0041]图33是图示根据一个或多个实施例的性能增强的计算系统的示例的框图;
[0042]图34A是根据一个或多个实施例的迁移工作负载的方法的示例的流程图;
[0043]图34B是根据一个或多个实施例的迁移工作负载的方法的示例的流程图;以及
[0044]图35是根据一个或多个实施例的性能增强的计算系统的示例的框图。
具体实施方式
[0045]图形处理单元(graphics processing unit,GPU)通信地耦合至主机/处理器核心以加速例如图形操作、机器学习操作、模式分析操作、和/或各种通用GPU(general

purpose GPU,GPGPU)功能。GPU可通过总线或另一互连(例如,诸如PCIe或NVLink之类的高速互连)通信地耦合至主机处理器/核心。替代地,GPU可集成在与核心相同的封装或芯片上,并且通过内部处理器总线/互连(即,在封装或芯片内部)通信地耦合至核心。无论GPU被连接所采取的方式如何,处理器核心都可将工作以工作描述符中所包含的命令/指令序列的形式分配给GPU。GPU随后使用专用电路/逻辑来高效地处理这些命令/指令。
Protocol,UDP)、快速UDP网际连接(quick UDP Internet Connections,QUIC)、通过汇聚以太网的RDMA(RDMA over Converged Ethernet,RoCE)、英特尔快速路径互连(Intel QuickPath Interconnect,QPI)、英特尔超路径互连(Intel Ultra Path Interconnect,UPI)、英特尔片上系统结构(Intel On

Chip System Fabric,IOSF)、全方位路径(Omnipath)、超传输(HyperTransport)、高级微控制器总线体系结构(Advanced Microcontroller Bus Architecture,AMBA)互连、OpenCAPI、Gen

Z、用于加速器的缓存一致互连(Cache Cohe本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算系统,包括:网络控制器;处理器,耦合至所述网络控制器;以及存储器,耦合至所述处理器,所述存储器存储指令,所述指令在由所述处理器执行时使得所述计算系统用于:扫描程序代码以检测库签名或加速器标签中的一者或多者;在检测到所述加速器标签时,用加速器调用替换用所述加速器标签标记的库函数;以及在检测到所述库签名时,执行以下中的一项:用所述加速器调用替换与所述库签名相关联的所述库函数;或者将所述加速器标签应用于与所述库签名相关联的所述库函数以指示所述加速器调用用于替换所述库函数,其中,当所述加速器标签被应用于与所述库签名相关联的所述库函数时,后续扫描被执行以检测所应用的标签并用所述加速器调用替换用所述加速器标签标记的所述库函数。2.如权利要求1所述的计算系统,其中,用所述加速器调用进行替换包括提供多个代码段,每个代码段针对多个硬件加速器中的相应的一个硬件加速器进行优化,并且其中,所述代码段中的一个代码段基于所述多个硬件加速器中的所述相应的一个硬件加速器的可用性被选择。3.如权利要求1所述的计算系统,其中,用所述加速器调用进行替换包括提供与多个硬件加速器对接的代码段,并且其中,所述多个硬件加速器中的一个硬件加速器基于可用性被选择。4.如权利要求1所述的计算系统,其中,所述指令在被执行时进一步使所述计算系统用于:在所述程序代码与一个或多个硬件加速器之间提供接口;以及执行所述程序代码与所述一个或多个硬件加速器中的选定的一个硬件加速器之间的转译,其中所述一个或多个硬件加速器中的所述选定的一个硬件加速器基于可用性被选择。5.如权利要求4所述的计算系统,其中,所述指令在被执行时进一步使所述计算系统用于提供所述一个或多个硬件加速器中的所述选定的一个硬件加速器在运行时所需的一个或多个服务。6.如权利要求1

5中任一项所述的计算系统,其中,所述指令在被执行时进一步使所述计算系统用于至少基于性能、资源、环境或任务优先级中的一项或多项来确定是否用所述加速器调用进行替换。7.一种半导体装置,包括:一个或多个衬底;以及逻辑,耦合至所述一个或多个衬底,所述逻辑至少部分地实现在可配置逻辑或固定功能硬件逻辑中的一者或多者中,所述逻辑用于:扫描程序代码以检测库签名或加速器标签中的一者或多者;在检测到所述加速器标签时,用加速器调用替换用所述加速器标签标记的库函数;以
及在检测到所述库签名时,执行以下中的一项:用所述加速器调用替换与所述库签名相关联的所述库函数;或者将所述加速器标签应用于与所述库签名相关联的所述库函数以指示所述加速器调用用于替换所述库函数,其中,当所述加速器标签被应用于与所述库签名相关联的所述库函数时,后续扫描被执行以检测所应用的标签并用所述加速器调用替换用所述加速器标记标签的所述库函数。8.如权利要求7所述的装置,其中,用所述加速器调用进行替换包括提供多个代码段,每个代码段针对多个硬件加速器中的相应的一个硬件加速器进行优化,并且其中,所述代码段中的一个代码段基于所述多个硬件加速器中的所述相应的一个硬件加速器的可用性被选择。9.如权利要求7所述的装置,其中,用所述加速器调用进行替换包括提供与多个硬件加速器对接的代码段,并且其中,所述多个硬件加速器中的一个硬件加速器基于可用性被选择。10.如权利要求7所述的装置,其中,所述逻辑进一步用于:在所述程序代码与一个或多个硬件加速器之间提供接口;以及执行所述程序代码与所述一个或多个硬件加速器中的选定的一个硬件加速器之间的转译,其中所述一个或多个硬件加速器中的所述选定的一个硬件加速器基于可用性被选择。11.如权利要求10所述的装置,其中,所述逻辑进一步用于提供所述一个或多个硬件加速器中的所述选定的一个硬件加速器在运行时所需的一个或多个服务。12.如权利要求7

11中任一项所述的装置,其中,所述逻辑进一步用于至少基于性能、资源、环境或任务优先级中的一项或多项来确定是否用所述加速器调用进行替换。1...

【专利技术属性】
技术研发人员:D
申请(专利权)人:英特尔公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1