当前位置: 首页 > 专利查询>辉达公司专利>正文

深度学习线程通信制造技术

技术编号:26068216 阅读:50 留言:0更新日期:2020-10-28 16:41
本发明专利技术公开了深度学习线程通信,可以在处理器中公开应用程序二进制接口(ABI),以使可能对应于单独编译的运算符的线程块进行通信,而无需将数据存储到处理器外部的全局存储器中。所述ABI可以定义如何将对应于第一线程块的一个计算的结果在一个运算符(即,内核)的末尾组织到处理器的寄存器和共享存储器中。与第二线程块相对应的下一运算符(即,内核)的开始可以使用所述寄存器和共享存储器中的结果。数据可以在各个线程退出所述块时存储到处理器本地存储中。一旦发布,只要其遵守发布的ABI,就可以单独编译、优化和测试库。

【技术实现步骤摘要】
深度学习线程通信
技术介绍
随着各种计算任务的复杂性不断增加,相应地需要提高执行那些任务的系统的性能。但是,其中某些系统的配置和设计限制了可获得的性能。例如,某些处理设备被配置为将各种操作的结果存储到全局存储器,然后其他操作可以访问该全局存储器。必须通过分层存储系统传播数据会限制为应用程序(例如,深度学习)获得更高的带宽和更低的延迟性能的能力。附图说明将参考附图描述根据本公开的各种实施例,其中:图1示出了可以用于实现各种实施例的各方面的示例系统。图2示出了根据各种实施例可以利用的示例分层存储器使用。图3示出了根据各种实施例可以利用的示例处理器的组件。图4示出了根据各种实施例可以管理的线程之间的示例调用。图5示出了根据各种实施例可以管理的线程块之间的示例调用。图6示出了根据各种实施例可以利用的用于管理处理器中的线程块的第一示例过程。图7示出了根据各种实施例可以利用的用于管理处理器中的线程块的第二示例过程。图8示出了根据各种实施例可以利用的示例并行处理单元(PPU)。r>图9A和图9B示本文档来自技高网...

【技术保护点】
1.一种图形处理单元(GPU),包括:/n一个或更多个多处理器,用于响应于执行第一线程块中的一个或更多个线程将一个或更多个结果存储到本地存储中;以及/n一个或更多个逻辑电路,用于响应于使用应用程序二进制接口(ABI)从所述第一线程块到第二线程块的调用,使得从所述本地存储中读取所述一个或更多个结果,而不用访问全局存储。/n

【技术特征摘要】
20190419 US 16/389,5481.一种图形处理单元(GPU),包括:
一个或更多个多处理器,用于响应于执行第一线程块中的一个或更多个线程将一个或更多个结果存储到本地存储中;以及
一个或更多个逻辑电路,用于响应于使用应用程序二进制接口(ABI)从所述第一线程块到第二线程块的调用,使得从所述本地存储中读取所述一个或更多个结果,而不用访问全局存储。


2.根据权利要求1所述的图形处理单元,其中所述本地存储包括所述一个或更多个多处理器中的寄存器和共享存储器。


3.根据权利要求1所述的图形处理单元,其中所述一个或更多个逻辑电路进一步用于根据针对所述ABI发布的约定,使得所述第一线程块能够经由所述ABI向所述第二线程块发出要被接收的所述调用。


4.根据权利要求1所述的图形处理单元,其中所述第一线程块对应于第一运算符集,其与对应于所述第二线程块的第二运算符集分开编译。


5.根据权利要求1所述的图形处理单元,其中所述一个或更多个逻辑电路进一步用于将对所述本地存储中存储的所述结果的访问限制为所述第一线程块和所述第二线程块。


6.根据权利要求1所述的图形处理单元,其中所述一个或更多个逻辑电路进一步用于允许各个线程退出所述第一线程块,而不影响参与所述第二线程块的线程。


7.根据权利要求1所述的图形处理单元,其中所述结果对应于由所述第一线程块或所述第二线程块中的至少一个中的所有线程并行执行的计算。


8.一种系统,包括:
全局存储器;以及
一个或更多个处理器,其包括耦合到一个或更多个寄存器和共享存储器的一个或更多个多处理器,其中所述一个或更多个多处理器用于响应于使用应用程序二进制接口(ABI)从第一线程块到第二线程块的调用,使得从所述一个或更多个寄存器或共享存储器中读取一个或更多个结果,而不必访问所述全局存储器。


9.根据权利要求8所述的系统,其中所述一个或更多个多处理器进一步用于根据针对所述ABI发布的约定,使得所述第一线程块能够经由所述ABI向所述第二线程块发出要被接收的所述调用。


10.根据权利要求8所述的系统,其中所述第一线...

【专利技术属性】
技术研发人员:B·法斯M·莱特斯通M·哈戈格
申请(专利权)人:辉达公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1