【技术实现步骤摘要】
【国外来华专利技术】线程组的并行处理
[0001]相关申请的交叉引用
[0002]本申请出于所有目的通过引用将2021年7月2日提交的标题为“同步屏障(SYNCHRONIZATION BARRIER)”的共同未决的美国专利申请No.17/366,770以及2021年7月2日提交的标题为“并行线程同步(PARALLEL THREAD SYNCHRONIZATION)”的共同未决的美国专利申请No.17/367,053的全部公开内容并入。
[0003]要求优先权
[0004]本申请要求2021年9月17日提交的标题为“线程组的并行处理(PARALLEL PROCESSING OF THREAD GROUPS)”的美国专利申请No.17/478,079的权益,出于所有的目的,将其全文并入本文。
[0005]至少一个实施例涉及用于使用并行处理执行程序的处理资源。例如,至少一个实施例涉及用于执行使用并行执行的多个协作线程组的一个或更多个CUDA程序的处理器或计算系统。
技术介绍
[0006]配置应用程序来并行利用多个处理资源可以大大提高程序的性能。例如,通过增加可以同时使用的处理核心的数量,可以减少完成程序所需的时间。因此,允许更大量的并行性的技术是开发的重要领域。
附图说明
[0007]图1示出了根据至少一个实施例的线程束的示例;
[0008]图2示出了根据至少一个实施例的跨越2个线程束的协作线程组的示例;
[0009]图3示出了根据至少一个实施例的跨越4个线程束的协作线程组的示例 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种处理器,包括:一个或更多个电路,用于执行应用编程接口(“API”)以使第一两个或更多个相关指令与第二两个或更多个相关指令同时地执行,所述第二两个或更多个相关指令独立于所述第一两个或更多个相关指令。2.根据权利要求1所述的处理器,其中所述应用编程接口是存储在计算机系统的存储器中的驱动程序。3.根据权利要求1所述的处理器,其中所述第一两个或更多个相关指令和所述第二两个或更多个相关指令共同驻留在图形处理单元(“GPU”)的存储器中。4.根据权利要求1所述的处理器,其中:所述第一两个或更多个相关指令是第一组两个或更多个线程的部分;以及所述一个或更多个电路使所述第一组两个或更多个线程在第一时间点共同驻留。5.根据权利要求1所述的处理器,其中:所述第二两个或更多个相关指令是第二组共同驻留线程的部分;所述一个或更多个电路使所述第二组共同驻留线程在第二时间点共同驻留;以及共同驻留允许所述第二组共同驻留线程中的每个线程与所述第二组共同驻留线程中的至少一个其他线程交互。6.根据权利要求1所述的处理器,其中所述第一两个或更多个相关指令通过访问共享存储器、获得所述第二两个或更多个相关指令的状态、等待所述第二两个或更多个相关指令、或者从所述第二两个或更多个相关指令发送或者接收数据,来与两个或更多个相关指令交互。7.根据权利要求1所述的处理器,其中作为确定没有足够资源可用于同时地执行所述第一两个或更多个相关指令的结果,所述一个或更多个电路阻止执行所述第一两个或更多个相关指令。8.根据权利要求7所述的处理器,其中所述资源包括寄存器文件、存储器、共享存储器或处理器核心中的一个或更多个。9.一种计算机实现的方法,包括执行应用编程接口(“API”),以使第一两个或更多个相关指令与第二两个或更多个相关指令同时地执行,所述第二两个或更多个相关指令独立于所述第一两个或更多个相关指令。10.根据权利要求9所述的计算机实现的方法,其中所述应用编程接口是存储在计算机系统的存储器中的驱动程序。11.根据权利要求9所述的计算机实现的方法,其中所述第一两个或更多个相关指令和所述第二两个或更多个相关指令共同驻留在图形处理单元(“GPU”)的存储器中。12.根据权利要求9所述的计算机实现的方法,还包括:使第一组两个或更多个线程在第一时间点共同驻留;以及其中所述第一两个或更多个相关指令是所述第一组两个或更多个线程的部分。13.根据权利要求9所述的计算机实现的方法,其中共同驻留使一组共同驻留线程中的每个线程能够与所述一组共同驻留线程中的至少一个其他线程交互。14.根据权利要求9所述的计算机实现的方法,其中第一线程通过访问共享存储器、获得第二线程的状态、等待所述第二线程、或从所述第二线程发送或接收数据,来与所述第二
线程交互。15.根据权利要求9所述的计算机实现的方法,其中作为确定没有足够的计算资源可用于同时地执行所述第一两个或更多个相关指令的结果,所述一个或更多个电路阻止执行所述第一两个或更多个相关指令。16.根据权利要求15所述的计算机实现的方法,其中所述资源包括寄存器文件、存储器、共享存储器或处理器核心中的一个或更多个。17.一种计算机系统,包括一个或更多个处理器和存储可执行指令的存储器,所述可执行指令作为由所述一个或更多个处理器执行的结果,使所述计算机系统执行应用编程接...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。