【技术实现步骤摘要】
图计算优化
至少一个实施例涉及处理图计算(computegraphs)。例如,至少一个实施例涉及用于使用本文描述的各种新颖技术来执行统一设备架构(“CUDA”)图计算的处理器或计算系统。
技术介绍
使用CUDA、OpenCL或HIP图执行计算任务可以节省大量的内存、时间或计算资源。但是,可以改善用于使用图执行计算任务的内存、时间或计算资源的量。附图说明图1示出了根据至少一个实施例的实例化的图计算的参数修改的示例;图2示出了根据至少一个实施例的图计算区域与处理单元之间的关联的示例;图3示出了根据至少一个实施例的图计算的部分重新优化的示例;图4示出了根据至少一个实施例的拒绝图计算的部分重新优化的示例;图5示出了根据至少一个实施例的拒绝图计算的部分重新优化的附加示例;图6示出了根据至少一个实施例的经优化的图计算中的结构改变的示例;图7示出了根据至少一个实施例的使用应用程序接口来执行对图计算的就地修改的示例;图8示出了根据至少一个实施例的对图计算的就地修改的示例;图9示出了根据至少一个实施例的示例性数据中心;图10示出了根据至少一个实施例的处理系统;图11示出了根据至少一个实施例的计算机系统;图12示出了根据至少一个实施例的系统;图13示出了根据至少一个实施例的示例性集成电路;图14示出了根据至少一个实施例的计算系统;图15示出了根据至少一个实施例的APU;图16示出了根据至少一个实 ...
【技术保护点】
1.一种处理器,包括:一个或更多个电路,用于独立于由图操作的一个或更多个操作数来多次执行所述图,其中当执行所述图不同次数时,所述一个或更多个操作数中的至少一个是不同的。/n
【技术特征摘要】
20200210 US 16/786,6021.一种处理器,包括:一个或更多个电路,用于独立于由图操作的一个或更多个操作数来多次执行所述图,其中当执行所述图不同次数时,所述一个或更多个操作数中的至少一个是不同的。
2.根据权利要求1所述的处理器,其中所述图是计算统一架构(“CUDA”)图和OpenCL图或可移植异构计算界面(“HIP”)图中的至少一个。
3.根据权利要求1所述的处理器,其中当使用不同的所述一个或更多个操作数执行所述图不同次数时,对执行所述图的优化保持在原位。
4.根据权利要求1所述的处理器,其中在第一次执行所述图之前,对所述图进行优化,以用于在处理单元上执行。
5.根据权利要求4所述的处理器,其中当使用不同的所述一个或更多个操作数执行所述图不同次数时,所述图保持优化,以用于在所述处理单元上执行。
6.根据权利要求1所述的处理器,其中所述一个或更多个操作数包括:当所述图被第一次执行时,由所述图操作的第一缓冲区,以及当所述图被第二次执行时,由所述图操作的不同于所述第一缓冲区的第二缓冲区。
7.根据权利要求1所述的处理器,所述一个或更多个电路用于确定能够使用不同的所述一个或更多个操作数来执行所述图,而无需改变用于执行所述图的拓扑。
8.根据权利要求1所述的处理器,所述一个或更多个电路用于使用少于阈值量的计算容量来确定所述图的部分能够被重新优化,以使用不同的所述一个或更多个操作数。
9.一种机器可读介质,其上存储有指令集,所述指令集如果由一个或更多个处理器执行,则使得所述一个或更多个处理器至少:
独立于由图操作的一个或更多个操作数来多次执行所述图,其中当执行所述图不同次数时,所述一个或更多个操作数中的至少一个是不同的。
10.根据权利要求9所述的机器可读介质,其中所述图是CUDA图、OpenGL图或HIP图中的至少一个。
11.根据权利要求9所述的机器可读介质,其中所述一个或更多个操作数包括:当所述图被第一次执行时,由所述图操作的第一缓冲区,以及当所述图被第二次执行时,由所述图操作的不同于所述第一缓冲区的第二缓冲区。
12.根据权利要求9所述的机器可读介质,其中所述指令集如果由一个或更多个处理器执行,则使得所述一个或更多个处理器至少:
确定能够使用不同的所述一个或更多个操作数来执行所述图,而无需改变用于执行所述图的拓扑。
13.根据权利要求9所述的机器可读介质,其中所述指令集如果由一个或更多个处理器执行,则使得所述一个或更多个处理器至少:
基于所述一个或更多个操作数的第一集合,生成用于第一次执行所述图的优化指令;以及
使用所述优化指令,使用所述一个或更多个操作数的第二集合第二次执行所述图。
14.根据权利要求13所述的机器可读介质,其中所述指令集如果由一个或更多个处理器执行,则使得所述...
【专利技术属性】
技术研发人员:S·琼斯,S·A·古芬克尔,D·A·丰泰内,S·T·史蒂文森,P·S·库尔卡尼,
申请(专利权)人:辉达公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。