推理系统、推理方法、电子设备及计算机存储介质技术方案

技术编号:28422423 阅读:11 留言:0更新日期:2021-05-11 18:30
本发明专利技术实施例提供了一种推理系统及方法,其中,推理系统包括相互连接的第一计算设备和第二计算设备,第一计算设备中设置有推理客户端,第二计算设备中包括推理加速资源以及推理服务端;推理客户端用于获取进行推理的计算模型的模型信息和待推理数据,并分别将模型信息和待推理数据发送至第二计算设备中的推理服务端;推理服务端用于通过推理加速资源载入并调用模型信息指示的计算模型,通过计算模型对待推理数据进行推理处理并向推理客户端反馈推理处理的结果。

【技术实现步骤摘要】
推理系统、推理方法、电子设备及计算机存储介质
本专利技术实施例涉及计算机
,尤其涉及一种推理系统、推理方法、电子设备及计算机存储介质。
技术介绍
深度学习一般分为训练和推理(Inference)两个部分,其中,通过训练部分搜索和求解模型的最优参数,而通过推理部分则可以将训练完成的模型部署在在线环境中,以进行实际使用。以人工智能领域为例,推理在部署后,可通过神经网络推导计算将输入转化为特定目标输出。例如,对图片进行物体检测、对文字内容进行分类等,在视觉、语音、推荐等场景被广泛应用。目前,大部分的推理依赖于具有推理加速卡如GPU(GraphicsProcessingUnit,图形处理器)的硬件计算资源。例如,在人工智能推理中,一种方式是GPU通过PCIE(PeripheralComponentInterconnectExpress,高速串行计算机扩展总线标准)插槽与计算机主机连接。其中,推理涉及的前后处理和其他业务逻辑通过CPU计算,而推理的处理则通过PCIE插槽发送到GPU进行计算,形成典型的异构计算场景。例如,在图1所示的电子设备100中,同时设置有CPU102和GPU104,GPU104可以通过PCIE插槽106设置于电子设备主板108上,并通过主板108上的主板线路与CPU102交互。在一个推理过程中,CPU102首先对相关数据或信息进行处理,进而将处理后的数据或信息通过PCIE插槽106发送到GPU104,GPU104根据接收的数据或信息,使用GPU104中的计算模型进行推理处理,之后,再将推理处理结果返回给CPU102,CPU102再进行相应的后续处理。但是,上述方式存在以下问题:需要CPU和GPU同台的异构计算机器,且该异构计算机器中的CPU/GPU的规格固定,这种固定的CPU/GPU性能配比限制了涉及推理的应用的部署,导致无法满足广泛的推理场景需求。
技术实现思路
有鉴于此,本专利技术实施例提供一种推理方案,以解决上述部分或全部问题。根据本专利技术实施例的第一方面,提供了一种推理系统,包括相互连接的第一计算设备和第二计算设备,其中,所述第一计算设备中设置有推理客户端,所述第二计算设备中设置有推理加速资源以及推理服务端;其中:所述推理客户端用于获取进行推理的计算模型的模型信息和待推理数据,并分别将所述模型信息和所述待推理数据发送至所述第二计算设备中的推理服务端;所述推理服务端用于通过推理加速资源载入并调用所述模型信息指示的计算模型,通过所述计算模型对所述待推理数据进行推理处理并向所述推理客户端反馈所述推理处理的结果。根据本专利技术实施例的第二方面,提供了一种推理方法,所述方法包括:获取进行推理的计算模型的模型信息,并将所述模型信息发送至目标计算设备,以指示所述目标计算设备使用所述目标计算设备中设置的推理加速资源载入所述模型信息指示的计算模型;获取待推理数据,并将所述待推理数据发送至所述目标计算设备,以指示所述目标计算设备使用推理加速资源调用载入的所述计算模型,通过所述计算模型对所述待推理数据进行推理处理;接收所述目标计算设备反馈的所述推理处理的结果。根据本专利技术实施例的第三方面,提供了另一种推理方法,所述方法包括:获取源计算设备发送的用于推理的计算模型的模型信息,通过推理加速资源载入所述模型信息指示的计算模型;获取所述源计算设备发送的待推理数据,使用推理加速资源调用载入的所述计算模型,通过所述计算模型对所述待推理数据进行推理处理;向所述源计算设备反馈所述推理处理的结果。根据本专利技术实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指示,所述可执行指示使所述处理器执行如第二方面所述的推理方法对应的操作,或者,所述可执行指示使所述处理器执行如第三方面所述的推理方法对应的操作。根据本专利技术实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第二方面所述的推理方法;或者,实现如第三方面所述的推理方法。根据本专利技术实施例提供的推理方案,将推理处理部署在不同的第一和第二计算设备中,其中,第二计算设备中设置有推理加速资源,可以通过计算模型进行主要的推理处理,而第一计算设备则可以负责推理处理之前和之后的数据处理。并且,第一计算设备中部署有推理客户端,第二计算设备中部署有推理服务端,在进行推理时,第一计算设备和第二计算设备通过推理客户端和推理服务端进行交互。推理客户端可以先将计算模型的模型信息发送给推理服务端,推理服务端使用推理加速资源载入相应的计算模型;接着,推理客户端向推理服务端发送待推理数据,推理服务端在接收到待推理数据后,即可通过载入的计算模型进行推理处理。由此,实现了推理所使用的计算资源的解耦,通过计算模型进行的推理处理和推理处理之外的数据处理可以通过不同的计算设备实现,其中一台配置有推理加速资源如GPU即可,无需一台电子设备上同时具有CPU和GPU,有效解决了因现有异构计算机器的CPU/GPU的规格固定,而使涉及推理的应用的部署受限,导致无法满足广泛的推理场景需求的问题。此外,对于用户来说,其在使用涉及推理的应用时,推理计算可以通过推理客户端和推理服务端无缝转接到远程具有推理加速资源的设备上进行,且推理客户端和推理服务端之间的交互对于用户是无感知的,因此,可以保证涉及推理的应用的业务逻辑和用户进行推理业务的使用习惯不变,低成本地实现了推理且提升了用户使用体验。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为现有技术中的一种具有推理计算资源的电子设备的结构示意图;图2a为根据本专利技术实施例一的一种推理系统的结构框图;图2b为根据本专利技术实施例的一种推理系统实例的结构示意图;图3a为根据本专利技术实施例二的一种推理系统的结构框图;图3b为根据本专利技术实施例的一种推理系统实例的结构示意图;图3c为使用图3b所示推理系统进行推理的过程示意图;图3d为使用图3b所示推理系统进行推理的交互示意图;图4为根据本专利技术实施例三的一种推理方法的流程图;图5为根据本专利技术实施例四的一种推理方法的流程图;图6为根据本专利技术实施例五的一种推理方法的流程图;图7为根据本专利技术实施例六的一种推理方法的流程图;图8为根据本专利技术实施例七的一种电子设备的结构示意图;图9为根据本专利技术实施例八的一种电子设备的结构示意图。具体实施方式为了使本领域的人员更好地理解本专利技术实施例中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术实施例一部分实施本文档来自技高网
...

【技术保护点】
1.一种推理系统,其特征在于,包括相互连接的第一计算设备和第二计算设备,其中,所述第一计算设备中设置有推理客户端,所述第二计算设备中设置有推理加速资源以及推理服务端;/n其中:/n所述推理客户端用于获取进行推理的计算模型的模型信息和待推理数据,并分别将所述模型信息和所述待推理数据发送至所述第二计算设备中的推理服务端;/n所述推理服务端用于通过推理加速资源载入并调用所述模型信息指示的计算模型,通过所述计算模型对所述待推理数据进行推理处理并向所述推理客户端反馈所述推理处理的结果。/n

【技术特征摘要】
1.一种推理系统,其特征在于,包括相互连接的第一计算设备和第二计算设备,其中,所述第一计算设备中设置有推理客户端,所述第二计算设备中设置有推理加速资源以及推理服务端;
其中:
所述推理客户端用于获取进行推理的计算模型的模型信息和待推理数据,并分别将所述模型信息和所述待推理数据发送至所述第二计算设备中的推理服务端;
所述推理服务端用于通过推理加速资源载入并调用所述模型信息指示的计算模型,通过所述计算模型对所述待推理数据进行推理处理并向所述推理客户端反馈所述推理处理的结果。


2.根据权利要求1所述的推理系统,其特征在于,所述推理客户端还用于在确定所述第二计算设备中不存在所述计算模型时,将所述计算模型发送至所述推理服务端。


3.根据权利要求2所述的推理系统,其特征在于,所述计算模型的模型信息为所述计算模型的标识信息或校验信息;
所述推理服务端还用于通过所述标识信息或所述校验信息,确定所述第二计算设备中是否存在所述计算模型,并将确定结果返回给所述推理客户端。


4.根据权利要求1所述的推理系统,其特征在于,
所述推理客户端还用于获取请求所述计算模型对所述待推理数据进行推理处理的推理请求,并对所述推理请求进行语义分析,根据语义分析结果确定待调用的所述计算模型中的处理函数,将所述处理函数的信息发送给所述推理服务端;
所述推理服务端在所述通过所述计算模型对所述待推理数据进行推理处理时,通过调用载入的所述计算模型中所述处理函数的信息指示的处理函数,对所述待推理数据进行推理处理。


5.根据权利要求4所述的推理系统,其特征在于,所述处理函数的信息为所述处理函数的API接口信息。


6.根据权利要求1所述的推理系统,其特征在于,所述第二计算设备中设置有一种或多种类型的推理加速资源;
当所述推理加速资源包括多种类型时,不同类型的推理加速资源具有不同的使用优先级;
所述推理服务端根据预设的负载均衡规则和多种类型的所述推理加速资源的优先级,使用推理加速资源。


7.根据权利要求1-6任一项所述的推理系统,其特征在于,所述第一计算设备和所述第二计算设备通过弹性网络相互连接。


8.根据权利要求1-6任一项所述的推理系统,其特征在于,所述推理客户端为嵌入所述第一计算设备中的深度学习框架内部的组件,或者,所述推理客户端为可被所述深度学习框架调用的可调用文件。


9.一种推理方法,其特征在于,所述方法包括:
获取进行推理的计算模型的模型信息,并将所述模型信息发送至目标计算设备,以指示所述目标计算设备使用所述目标计算设备中设置的推理加速资源载入所述模型信息指示的计算模型;
获取待推理数据,并将所述待推理数据发送至所述目标计算设备,以指示所述目标计算设备使用推理加速资源调用载入的所述计算模型,通过所述计算模型对所述待推理数据进行推理处理;
接收所述目标计算设备反馈的所述推理处理的结果。


10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若确定所述目标计算设备中不存在所述计算模型时,则将所述计算模型发送至所述目标计算设备。


11.根据权利要求10所述的方法,其特征在于,所述计算模型的模型信息为所述计算模型的标识信息或校验信息;
在所述若确定所述目标计...

【专利技术属性】
技术研发人员:林立翔李鹏游亮龙欣
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1