推理系统、推理方法、电子设备及计算机存储介质技术方案

技术编号：28422423 阅读：11 留言：0更新日期：2021-05-11 18:30

本发明专利技术实施例提供了一种推理系统及方法，其中，推理系统包括相互连接的第一计算设备和第二计算设备，第一计算设备中设置有推理客户端，第二计算设备中包括推理加速资源以及推理服务端；推理客户端用于获取进行推理的计算模型的模型信息和待推理数据，并分别将模型信息和待推理数据发送至第二计算设备中的推理服务端；推理服务端用于通过推理加速资源载入并调用模型信息指示的计算模型，通过计算模型对待推理数据进行推理处理并向推理客户端反馈推理处理的结果。

全部详细技术资料下载

【技术实现步骤摘要】
推理系统、推理方法、电子设备及计算机存储介质
本专利技术实施例涉及计算机
，尤其涉及一种推理系统、推理方法、电子设备及计算机存储介质。
技术介绍
深度学习一般分为训练和推理(Inference)两个部分，其中，通过训练部分搜索和求解模型的最优参数，而通过推理部分则可以将训练完成的模型部署在在线环境中，以进行实际使用。以人工智能领域为例，推理在部署后，可通过神经网络推导计算将输入转化为特定目标输出。例如，对图片进行物体检测、对文字内容进行分类等，在视觉、语音、推荐等场景被广泛应用。目前，大部分的推理依赖于具有推理加速卡如GPU(GraphicsProcessingUnit，图形处理器)的硬件计算资源。例如，在人工智能推理中，一种方式是GPU通过PCIE(PeripheralComponentInterconnectExpress，高速串行计算机扩展总线标准)插槽与计算机主机连接。其中，推理涉及的前后处理和其他业务逻辑通过CPU计算，而推理的处理则通过PCIE插槽发送到GPU进行计算，形成典型的异构计算场景。例如，在图1所示的电子设备100中，同时设置有CPU102和GPU104，GPU104可以通过PCIE插槽106设置于电子设备主板108上，并通过主板108上的主板线路与CPU102交互。在一个推理过程中，CPU102首先对相关数据或信息进行处理，进而将处理后的数据或信息通过PCIE插槽106发送到GPU104，GPU104根据接收的数据或信息，使用GPU104中的计算模型进行推理处理，之后，再将推理处...

【技术保护点】
1.一种推理系统，其特征在于，包括相互连接的第一计算设备和第二计算设备，其中，所述第一计算设备中设置有推理客户端，所述第二计算设备中设置有推理加速资源以及推理服务端；/n其中：/n所述推理客户端用于获取进行推理的计算模型的模型信息和待推理数据，并分别将所述模型信息和所述待推理数据发送至所述第二计算设备中的推理服务端；/n所述推理服务端用于通过推理加速资源载入并调用所述模型信息指示的计算模型，通过所述计算模型对所述待推理数据进行推理处理并向所述推理客户端反馈所述推理处理的结果。/n

【技术特征摘要】
1.一种推理系统，其特征在于，包括相互连接的第一计算设备和第二计算设备，其中，所述第一计算设备中设置有推理客户端，所述第二计算设备中设置有推理加速资源以及推理服务端；
其中：
所述推理客户端用于获取进行推理的计算模型的模型信息和待推理数据，并分别将所述模型信息和所述待推理数据发送至所述第二计算设备中的推理服务端；
所述推理服务端用于通过推理加速资源载入并调用所述模型信息指示的计算模型，通过所述计算模型对所述待推理数据进行推理处理并向所述推理客户端反馈所述推理处理的结果。

2.根据权利要求1所述的推理系统，其特征在于，所述推理客户端还用于在确定所述第二计算设备中不存在所述计算模型时，将所述计算模型发送至所述推理服务端。

3.根据权利要求2所述的推理系统，其特征在于，所述计算模型的模型信息为所述计算模型的标识信息或校验信息；
所述推理服务端还用于通过所述标识信息或所述校验信息，确定所述第二计算设备中是否存在所述计算模型，并将确定结果返回给所述推理客户端。

4.根据权利要求1所述的推理系统，其特征在于，
所述推理客户端还用于获取请求所述计算模型对所述待推理数据进行推理处理的推理请求，并对所述推理请求进行语义分析，根据语义分析结果确定待调用的所述计算模型中的处理函数，将所述处理函数的信息发送给所述推理服务端；
所述推理服务端在所述通过所述计算模型对所述待推理数据进行推理处理时，通过调用载入的所述计算模型中所述处理函数的信息指示的处理函数，对所述待推理数据进行推理处理。

5.根据权利要求4所述的推理系统，其特征在于，所述处理函数的信息为所述处理函数的API接口信息。

6.根据权利要求1所述的推理系统，其特征在于，所述第二计算设备中设置有一种或多种类型的推理加速资源；
当所述推理加速资源包括多种类型时，不同类型的推理加速资源具有不同的使用优先级；
所述推理服务端根据预设的负载均衡规则和多种类型的所述推理加速资源的优先级，使用推理加速资源。

7.根据权利要求1-6任一项所述的推理系统，其特征在于，所述第一计算设备和所述第二计算设备通过弹性网络相互连接。

8.根据权利要求1-6任一项所述的推理系统，其特征在于，所述推理客户端为嵌入所述第一计算设备中的深度学习框架内部的组件，或者，所述推理客户端为可被所述深度学习框架调用的可调用文件。

9.一种推理方法，其特征在于，所述方法包括：
获取进行推理的计算模型的模型信息，并将所述模型信息发送至目标计算设备，以指示所述目标计算设备使用所述目标计算设备中设置的推理加速资源载入所述模型信息指示的计算模型；
获取待推理数据，并将所述待推理数据发送至所述目标计算设备，以指示所述目标计算设备使用推理加速资源调用载入的所述计算模型，通过所述计算模型对所述待推理数据进行推理处理；
接收所述目标计算设备反馈的所述推理处理的结果。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：
若确定所述目标计算设备中不存在所述计算模型时，则将所述计算模型发送至所述目标计算设备。

11.根据权利要求10所述的方法，其特征在于，所述计算模型的模型信息为所述计算模型的标识信息或校验信息；
在所述若确定所述目标计...

【专利技术属性】
技术研发人员：林立翔，李鹏，游亮，龙欣，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人