通过基于区域的依赖进行内核的高效多GPU执行的系统和方法技术方案

技术编号：36519273 阅读：16 留言：0更新日期：2023-02-01 15:53

提供了用于图形处理的方法。一个示例方法包括：使用多个图形处理单元(GPU)来执行多个内核，其中执行对应的内核的责任被划分为一个或多个部分，每个部分被分配给对应的GPU。所述方法包括：在第一内核的第一多个部分中的每一个完成处理时，在第一内核处生成多个依赖数据。所述方法包括：在执行第二内核的一部分之前，检查来自第一内核的一个或多个部分的依赖数据。所述方法包括：只要没有满足第一内核的对应依赖数据，就延迟执行第二内核的所述部分。分。分。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】通过基于区域的依赖进行内核的高效多GPU执行的系统和方法

[0001]本公开涉及图形处理，并且更具体地涉及图形处理单元(GPU)上的内核计算。

技术介绍

[0002]近年来，在线服务不断推动，允许在云游戏服务器和通过网络连接的客户端之间以流式传输格式进行在线游戏或云游戏。由于按需提供游戏名称、执行更复杂游戏的能力、玩家之间联网以进行多玩家游戏的能力、玩家之间的资产共享、玩家和/或观众之间的即时体验共享、允许朋友观看朋友玩视频游戏、让朋友加入朋友正在进行的游戏进行等，流式传输格式越来越受欢迎。
[0003]云游戏服务器可以被配置为向一个或多个客户端和/或应用提供资源。也就是说，云游戏服务器可以配置有具有高吞吐量能力的资源。例如，单个图形处理单元(GPU)可以达到的性能是有限的，例如从对GPU可以有多大的限制中得出。为了在生成场景时渲染更复杂的场景或使用更复杂的算法(例如材质、照明等)，可能需要使用多个GPU来渲染单个图像。
[0004]然而，这些GPU的同等使用是难以实现的。例如，在GPU之间均匀分配工作负载很困难，这会导致一些GPU在特定处理周期内比其他GPU更快地完成其工作负载。执行速度更快的GPU将等待(例如闲置)其他GPU完成处理它们各自的工作负载并将其结果复制到其他GPU，因为一个GPU生成的数据可能在下一个处理周期中被另一个GPU使用。此外，与经由高速总线与共享存储器连接的GPU相比，经由较低速总线连接的GPU具有明显的劣势。随着图像或缓冲区变大，副本的大小增加并成为瓶颈。由于这种低效率(例...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于图形处理的方法，其包括：使用多个图形处理单元(GPU)来执行多个内核，其中执行对应的内核的责任被划分为一个或多个部分，每个部分被分配给对应的GPU；在第一内核的第一多个部分中的每一个完成处理时，在所述第一内核处生成多个依赖数据；在执行第二内核的一部分之前，检查来自所述第一内核的一个或多个部分的依赖数据；以及只要没有满足所述第一内核的对应的依赖数据，就延迟执行所述第二内核的所述部分。2.如权利要求1所述的方法，其中由所述第一内核的一部分生成的依赖数据指示完成向资源的一个或多个区域的一次或多次写入。3.如权利要求2所述的方法，其中区域对应于所述资源的子集，其中所述子集包括图像的图块或缓冲区范围。4.如权利要求1所述的方法，其中所述依赖数据指示完成向资源的区域的写入。5.如权利要求4所述的方法，其中依赖数据每部分存储，或者其中依赖数据每个区域每部分存储。6.如权利要求1所述的方法，其中所述第一内核的一部分对应于由一个或多个维定义的索引空间的索引范围，其中所述索引范围可以跨越整个索引空间或由所述第一内核使用的每个维中的所述索引空间的子集。7.如权利要求6所述的方法，其中所述第一内核的所述一个或多个部分的依赖数据在执行所述第二内核的所述部分之前被检查的所述第一内核的所述一个或多个部分基于与所述第二内核的所述部分相对应的针对每个维的索引范围，所述方法包括：检查由通过与所述第二内核的所述部分相对应的针对各维的所述索引范围或其定义偏移索引范围的偏移定义的所述第一内核的一部分生成的所述依赖数据，或者检查由所述第一内核的多个部分生成的依赖数据，所述第一内核的所述多个部分由针对各维的索引范围定义，所述索引范围合在一起是与所述第二内核的所述部分相对应的针对各维的所述索引范围的超集；或者检查由所述第一内核的一个或多个部分生成的依赖数据，所述第一内核的所述一个或多个部分由针对各维的索引范围定义，所述索引范围导出自使用与所述第二内核的所述部分相对应的针对各维的索引范围来计算的函数。8.如权利要求7所述的方法，其中若指向所述第一内核的被检查的所述部分的所述偏移索引范围、所述索引范围的所述超集或从所述函数导出的计算的索引范围在所述索引空间之外，则：忽略在执行所述第二内核之前检查并由所述第一内核生成的所述依赖数据，或者针对所述内核的与索引范围相对应的一部分，检查在执行所述第二内核之前检查并由
所述第一内核生成的所述依赖数据，所述索引范围被箝位使得它位于所述索引空间内；或者针对所述内核的与索引范围相对应的一部分，检查在执行所述第二内核之前检查并由所述第一内核生成的所述依赖数据，所述索引范围被卷绕在所述索引空间中。9.如权利要求1所述的方法，其还包括：在第一GPU上执行所述第一内核的一部分；以及在所述第一GPU完成对所述第一内核的所述部分的处理后，将由所述第一内核生成的数据发送到所述第二GPU的本地存储器。10.如权利要求1所述的方法，其还包括：在第一GPU上执行所述第一内核的一部分；以及在所述第二GPU执行所述第二内核的所述部分之前，将由所述第一内核的所述部分生成的数据提取到所述第二GPU的本地存储器中。11.如权利要求1所述的方法，其还包括：经由直接存储器访问(DMA)将由在第一GPU上执行的所述第一内核的一部分生成的并写入到所述第一GPU的本地存储器中的数据提取到执行所述第二内核的所述部分的第二GPU的本地存储器中。12.如权利要求11所述的方法，其还包括：在完成所述DMA之前，在所述第二GPU处，通过正常的读取操作直接从所述第一GPU的所述本地存储器访问由所述第一GPU生成的所述数据；或者在完成所述DMA之后，在所述第二GPU处，从所述第二GPU的所述本地存储器访问由所述第一GPU生成的所述数据。13...

【专利技术属性】
技术研发人员：FA施特劳斯，ME塞尔尼，
申请(专利权)人：索尼互动娱乐有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人