专用处理单元的功能即服务(FAAS)模型制造技术

技术编号:35339072 阅读:28 留言:0更新日期:2022-10-26 12:02
包括图形处理单元(GPU)的服务器可以从远离服务器的第一应用接收第一请求,第一请求要求将GPU的第一数量的核保留第一时间量。服务器还可以从同样远离服务器的第二应用接收第二请求,第二请求要求将GPU的第二数量的核保留第二时间量,第二时间量与第一时间量至少部分地重叠。服务器可以确定第一请求与比第二请求更高的优先级相关联,并且作为响应,可以为第一应用将第一数量的核保留第一时间量。服务器可以向第一应用发送第一数量的核已经按照第一应用的请求被保留的指示。第一应用的请求被保留的指示。第一应用的请求被保留的指示。

【技术实现步骤摘要】
【国外来华专利技术】专用处理单元的功能即服务(FAAS)模型
[0001]相关申请的交叉引用
[0002]本专利申请要求于2020年3月12日提交的美国实用专利申请序列号16/817,390的优先权,该申请通过引用的方式全部并入本文。


[0003]本公开总体涉及提供专用处理单元,例如图形处理单元(GPU)、张量处理单元(TPU)等作为服务,使专用处理单元的核可用于边缘客户端计算设备。

技术介绍

[0004]在当今无所不在的计算世界中,架构继续向边缘计算发展,其中计算设备获取和处理尽可能接近源的数据。边缘计算提供了许多好处,包括减少延迟和减少跨网络的数据带宽成本。然而,某些类型的处理可能非常密集,以至于需要比许多边缘计算设备所能提供的更多的功率。因此,边缘计算面临着一个冲突,即继续将数据处理进一步推向源,而无需在不断增加的边缘计算设备上添加昂贵的硬件。
附图说明
[0005]下面参照附图来阐述具体实施方式。在附图中,附图标记最左边的(一个或多个)数字表示该附图标记首次出现的附图。在不同的附图中使用相同的附图标记表示相似或相同的项目。附图中描绘的系统未按比例绘制,并且附图中的组件可能彼此未按比例绘制。
[0006]图1示出了示例环境的系统架构图,其中处理单元服务可通过网络由不同的客户端设备访问。在所示环境中,每个客户端设备可以包括边缘计算设备,该边缘计算设备被配置为在本地处理一些数据,同时调用一个或多个专用处理单元(例如,处理单元服务的图形处理单元(GPU))的核用于执行某些并行的、密集的计算任务。在一些情况下,处理单元服务包括代理服务,该代理服务被配置为接收对核的请求,确定请求的相应优先级,并相应地分配核的使用。
[0007]图2示出了可以在图1的系统内发生的示例场景。如图所示,三个所示客户端设备中的每一个都可以请求在相应时间量内使用处理单元服务的处理单元的相应数量的核。作为响应,代理服务可以相应地分配处理单元的核。
[0008]图3示出了可以在图1的系统内发生的另一个示例场景。在这里,两个客户端设备分别发出对核的请求,这些请求相互冲突。例如,请求可能在时间上至少部分地重叠,并且处理单元服务可能无法在期望的时间为客户端设备中的每一个分配核的数量。因此,代理服务可以确定哪个请求比另一个请求具有优先级,并且作为响应,可以满足较高优先级的请求同时部分地满足较低优先级的请求。
[0009]图4示出了可以在图1的系统内发生的另一个示例场景。同样,两个客户端设备发出冲突的请求,使得代理服务确定哪个请求优先于另一个请求。在该示例中,代理服务可以在当前时间完成较高优先级请求,而在完成与较高优先级请求相关联的任务之后,在稍后
时间完成较低优先级请求。
[0010]图5示出了用于接收使用一个或多个专用处理单元的核的请求并且作为响应对请求进行优先级排序并相应地分配核的示例过程的流程图。
[0011]图6A

图6B共同示出了用于从各个应用接收使用核的两个相应请求并且作为响应对请求进行优先级排序并相应地分配核的另一示例过程的流程图。
[0012]图7是示出用于实现被配置为实现本文描述的技术的计算设备的说明性计算机硬件架构的计算机架构图。
具体实施方式
[0013]概览
[0014]本公开部分地描述了一种方法,该方法包括:在包括图形处理单元(GPU)的服务器处从远离服务器的第一应用接收第一请求,以将GPU的第一数量的核保留第一时间量。该方法还包括在服务器处从远离服务器且远离第一应用的第二应用接收第二请求,以将GPU的第二数量的核保留第二时间量,第二时间量与第一时间量至少部分地重叠。该方法还可以包括由服务器确定第一请求与比第二请求更高的优先级相关联,以及由服务器至少部分地基于该确定,为第一应用将第一数量的核保留第一时间量。此外,该方法可以包括由服务器向第一应用发送指示出第一数量的核已经为第一应用保留了第一时间量的指示。
[0015]本公开还部分地描述了一种至少部分地由包括专用处理单元(例如,图形处理单元(GPU)、张量处理单元(TPU)等)的系统实施的方法,该方法包括从远离系统的第一应用接收第一请求,以将专用处理单元的第一数量的核保留第一时间量。该方法还可以包括从远离系统并且远离第一应用的第二应用接收第二请求,以将专用处理单元的第二数量的核保留第二时间量,第二时间量与第一时间量至少部分地重叠,以及确定第一请求与比第二请求更高的优先级相关联。该方法还可以包括至少部分地基于该确定,为第一应用将第一数量的核保留第一时间量,并且向第一应用发送指示出第一数量的核已为第一应用保留了第一时间量的指示。
[0016]此外,本文描述的技术可以经由方法、设备、系统和/或存储计算机可执行指令的非暂态计算机可读介质来执行,这些计算机可执行指令在由一个或多个处理器执行时执行本文描述的技术。
[0017]示例实施例
[0018]如上所述,计算架构继续向边缘计算发展,其中计算设备获取和处理尽可能靠近源的数据。边缘计算提供了许多好处,包括减少延迟和减少跨网络的数据带宽成本。然而,某些类型的处理可能非常密集,以至于需要比许多边缘计算设备所能提供的更多的功率。因此,边缘计算面临着一个冲突,即继续将数据处理进一步推向源,而无需在不断增加的边缘计算设备上添加昂贵的硬件。
[0019]本文描述了使边缘计算设备能够使用边缘设备板载的处理器在本地执行串行、非密集计算任务的技术,同时将处理单元服务的专用处理单元的核用于密集的并行任务。因此,所描述的技术有效地创建了一种环境,其中可以在功能即服务(FaaS)模型中访问专用处理单元的核。例如,在边缘操作的每个客户端计算设备可以包括一些在本地执行计算任务的代码片段,以及在调用时请求FaaS模型的核的其他代码片段。可以使用FaaS的一个或
多个专用处理单元的核执行的计算任务的示例包括计算机视觉、视频分析、自然语言处理(NLP)、图形处理、推理机器学习(ML)训练、人工智能(AI)等等。
[0020]在某些情况下,处理单元服务驻留在“云中”,因此,多个不同的客户端计算设备可以通过互联网和/或其他网络访问。此外,处理单元服务可以包括一个或多个图形处理单元(GPU)、张量处理单元(TPU)、边缘TPU和/或被配置为执行密集计算的其他专用处理单元。当然,虽然处理单元服务可以驻留在云中,但它也可以驻留在网络中“更高”的任何地方,例如物联网(IoT)聚合点、多接入边缘计算(MEC)节点、更高级别的数据中心等。
[0021]处理单元服务可以包括代理服务,该代理服务被配置为接收对专用处理单元的核的不同请求并相应地分配和调度核。例如,来自在边缘操作的客户端计算设备的每个请求可以包括一个或多个参数。这些参数可以包括请求的核的数量、核被请求的时间长度、核已被请求的时间范围、客户端计算设备希望在核上执行的任务类型、任务的优先级、处理服务单元先前已同意提供给客户端计算设备的服务质量(QoS)级别、处理单元服务与客户端计算设备之本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:在包括图形处理单元(GPU)的服务器处,从远离所述服务器的第一应用接收第一请求,所述第一请求要求将所述GPU的第一数量的核保留第一时间量;在所述服务器处,从远离所述服务器且远离所述第一应用的第二应用接收第二请求,所述第二请求要求将所述GPU的第二数量的核保留第二时间量,所述第二时间量与所述第一时间量至少部分地重叠;由所述服务器确定所述第一请求与比所述第二请求更高的优先级相关联;由所述服务器至少部分地基于所述确定,为所述第一应用将所述第一数量的核保留所述第一时间量;以及由所述服务器向所述第一应用发送指示出所述第一数量的核已经为所述第一应用保留了所述第一时间量的指示。2.根据权利要求1所述的方法,还包括:由所述服务器至少部分地基于所述确定,为所述第二应用将第三数量的核保留所述第二时间量,所述第三数量的核少于由所述第二应用请求的所述第二数量的核;以及由所述服务器向所述第二应用发送指示出所述第三数量的核已经为所述第二应用保留了所述第二时间量的指示。3.根据权利要求1或2所述的方法,还包括:由所述服务器至少部分地基于所述确定,为所述第二应用将所述第二数量的核保留第三时间量,所述第三时间量满足以下项中的至少一项:小于所述第二时间量、或发生在所述第二时间量之后;以及由所述服务器向所述第二应用发送指示出所述第二数量的核已经为所述第二应用保留了所述第三时间量的指示。4.根据权利要求1、2或3所述的方法,其中,所述确定所述第一请求与比所述第二请求更高的优先级相关联至少部分地基于以下各项中的至少一项:要由所述第一应用执行的任务、要由所述第二应用执行的任务、与所述第一应用相关联的服务质量(QoS)级别、与所述第二应用相关联的QoS级别、与所述第一应用相关联的计费模型、或与所述第二应用相关联的计费模型。5.根据权利要求1、2、3或4所述的方法,其中,所述确定所述第一请求与比所述第二请求更高的优先级相关联至少部分地基于以下各项中的至少一项:由所述第一应用请求的核的所述第一数量、所述第一应用已经请求所述第一数量的核的所述第一时间量、由所述第二应用请求的核的所述第二数量、或所述第二应用已经请求所述第二数量的核的所述第二时间量。6.根据前述权利要求中任一项所述的方法,其中,所述服务器形成基于云的服务的一部分,接收所述第一请求包括经由由所述基于云的服务提供的应用编程接口(API)接收所述第一请求,并且接收所述第二请求包括经由由所述基于云的服务提供的所述API接收所述第二请求。7.根据前述权利要求中任一项所述的方法,其中,所述第一请求包括与所述第一应用相关联的第一认证凭证,并且所述方法还包括:至少部分地在保留所述第一数量的核和发送所述指示之前,使用与所述第一应用相关
联的所述第一认证凭证来认证所述第一应用。8.一种系统,包括:一个或多个第一处理器,包括图形处理单元(GPU)或张量处理单元(TPU)中的至少一者;一个或多个第二处理器;和存储计算机可执行指令的一个或多个计算机可读介质,所述计算机可执行指令当被执行时,使所述一个或多个第二处理器执行动作,所述动作包括:从远离所述系统的第一应用接收第一请求,所述第一请求要求将所述GPU或所述TPU中的至少一者的第一数量的核保留第一时间量;从远离所述系统且远离所述第一应用的第二应用接收第二请求,所述第二请求要求将所述GPU或所述TPU中的至少一者的第二数量的核保留第二时间量,所述第二时间量与所述第一时间量至少部分地重叠;确定所述第一请求与比所述第二请求更高的优先级相关联;至少部分地基于所述确定,为所述第一应用将所述第一数量的核保留所述第一时间量;以及向所述第一应用发送指示出所述第一数量的核已经为所述第一应用保留了所述第一时间量的指示。9.根据权利要求8所述的系统,所述动作还包括:至少部分地基于所述确定,为所述第二应用将第三数量的核保留所述第二时间量,所述第三数量的核少于由所述第二应用请求的所述第二数量的核;以及向所述第二应用发送指示出所述第三数量的核已经为所述第二应用保留了所述第二时间量的指示。10.根据权利要求8或9所述的系统,所述动作还包括:至少部分地基于所述确定,为所述第二应...

【专利技术属性】
技术研发人员:罗伯特
申请(专利权)人:思科技术公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1