一种在线模型推理系统技术方案

技术编号:24888371 阅读:15 留言:0更新日期:2020-07-14 18:15
本申请涉及一种在线模型推理系统,本申请实施例通过建立模型仓库和存储有推理模型所需的容器镜像的容器镜像仓库,当接收用户的在线推理请求时,根据用户的配置信息使模型微服务引擎从模型仓库调取用户需要的推理模型,并从容器镜像仓库容器镜像,避免训练模型所需容器镜像与实际容器镜像不一致的情况,进而能够将推理模型封装为可容器化运行的推理服务,提供在线推理服务。

【技术实现步骤摘要】
一种在线模型推理系统
本申请涉及分布式存储
,尤其涉及一种在线模型推理系统。
技术介绍
随着大数据技术和人工智能技术的发展,越来越多的业务场景,如金融风控、在线广告、商品推荐、智能城市等,采用大量的机器学习技术来提升服务质量和智能决策水平。针对具体的任务,在模型指定的训练环境中训练得到模型后,需要将其封装,再将模型部署为在线推理服务,当用户使用与训练环境相同的运行环境时,即可使用该推理服务。但是在实现本专利技术过程中,专利技术人发现随着推理服务需求量增加,需要部署的推理模型种类增多,容易出现推理模型的训练环境与用户的运行环境不同,造成部署推理模型上线后进行在线推理服务运行错误的问题。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请实施例提供了一种在线模型推理系统。第一方面,本申请实施例提供了一种在线模型推理系统,所述系统包括:模型仓库、容器镜像仓库、服务设计器以及模型微服务引擎;所述模型仓库,用于存储推理模型和所述推理模型的元数据;所述容器镜像仓库,用于存储所述推理模型运行所需的容器镜像;所述服务设计器,用于接收用户对待对外提供在线推理服务的推理模型的配置信息;所述模型微服务引擎,用于按照述配置信息在容器镜像仓库中拉取容器镜像、从所述模型仓库中拉取推理模型及元数据;以及,将所述推理模型、元数据和容器镜像进行封装,得到为可容器化运行的模型推理服务,以对外提供在线推理服务。可选地,所述系统还包括:服务状态监控装置;所述服务状态监控模块用于确定所述模型微服务引擎中的各个用于搭载推理服务的容器实例的CPU使用率、GPU使用率、内存使用率、响应时延以及容器实例数量;以及,计算所述模型微服务引擎中的所述推理服务的准确性指标。可选地,所述系统还包括:容器编排器;所述容器编排器用于根据所述CPU使用率、GPU使用率、内存使用率、响应时延以及推理服务数量计算期望容器实例数量,并依据所述期望容器实例数量对所述模型微服务引擎中的容器实例进行增加/删减。可选地,根据所述CPU使用率、GPU使用率、内存使用率、响应时延以及推理服务数量计算期望容器实例数量的公式如下:其中,α、β、γ、δ分别为CPU使用率、GPU使用率、内存使用率、响应时延4个衡量维度的权重因子,取值范围为[0,1],总和为1,ceil表示向下取整。可选地,所述模型微服务引擎中包括:模型筛选器;所述模型筛选器用于根据配置信息确定筛选策略,并按照所述筛选策略从所述模型仓库中拉取符合所述筛选策略的推理模型。可选地,所述配置信息包含下列五种模型筛选策略中的任一种;第一筛选策略:根据所述配置信息确定用户所需的目标数据信息,根据所述目标数据信息确定目标推理模型;第二筛选策略:从服务状态监控模块获取多个所述推理模型的准确性指标,从多个所述推理模型选取准确性指标最高的推理模型,得到目标推理模型;第三筛选策略:获取相同类型不同版本的多个所述推理模型的性能评估指标,从多个所述推理模型中选取性能评估指标最高的推理模型,得到目标推理模型;第四筛选策略:获取相同类型不同版本的多个所述推理模型的性能评估指标,利用所述性能评估指标高于阈值的推理模型更新迭代出目标推理模型;第五筛选策略:根据所述配置信息确定用户指定的推理模型标识,根据所述推理模型标识确定目标推理模型。可选地,所述服务设计器中包括:压力测试/在线服务模块;所述压力测试/在线服务模块用于对所述模型微服务引擎中的推理服务进行压力测试,生成测试结果;以及,接收用户的推理服务请用请求。可选地,所述在线模型推理系统还包括:负载均衡器;所述负载均衡器用于将所述用户的推理服务应用请求分配至所述模型微服务引擎的容器实例中,以使所述容器实例中部署的推理服务响应所述用户的推理服务应用请求。可选地,所述设计器中包括:监控面板;所述监控面板用于采集服务状态监控模块中的存储数据,并依据预设的计算方式对所述存储数据进行计算得到监控指标,以供用户查看。可选地,所述系统还包括:模型服务发布管理模块;所述模型服务发布管理模块用于将管理所述模型微服务引擎中的推理服务的上线、下线、注册、发现、发布、重启以及管理功能。本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例通过建立模型仓库和存储有推理模型所需的容器镜像的容器镜像仓库,当接收用户的在线推理请求时,根据用户的配置信息使模型微服务引擎从模型仓库调取用户需要的推理模型,并从容器镜像仓库容器镜像,避免训练模型所需容器镜像与实际容器镜像不一致的情况,进而能够将推理模型封装为可容器化运行的推理服务,提供在线推理服务。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种在线模型推理系统结构示意图;图2为本申请实施例提供的另一种在线模型推理系统结构示意图;图3为本申请实施例提供的另一种在线模型推理系统结构示意图。具体实施方式为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。目前,随着大数据技术和人工智能技术的发展,业务场景的增加,采用大量的机器学习技术来提升服务质量和智能决策水平。针对于机器学习模型运行环境,专利技术人在研究过程中发现以下问题:由于机器学习模型运行的软件环境、依赖基础库及版本多样,不同模型之间存在差异,部署不同的模型都需要搭建一次基础环境,存在重复工作,且可能与模型训练时的环境不一样,导致运行异常。目前现有技术主要是通过直接在物理机器上部署多个机器学习模型服务时,虽然可以通过Conda等工具创建虚拟软件环境的方式隔离多个服务的基础环境,但多个服务之间会存在资源冲突,影响服务的稳定性。另外,服务均为单实例部署,不能保证模型服务的高可用性。总而言之,随着用户需求的推理服务需求量增加,需要部署的推理模型种类增多,容易出现推理模型的训练环境与用户的运行环境不同,造成部署推理模型上线后进行在线推理服务运行错误的问题。基于此,本专利技术实施例首先提供了一种在线模型推理系统,如图1所示,所述系统包括:模型仓库01、容器镜像仓库02、服务设计器03和模型微服务引擎04;所述模型仓库01,用于存储推理模型和所述推理模型的元本文档来自技高网...

【技术保护点】
1.一种在线模型推理系统,其特征在于,所述系统包括:模型仓库、容器镜像仓库、服务设计器以及模型微服务引擎;/n所述模型仓库,用于存储推理模型和所述推理模型的元数据;/n所述容器镜像仓库,用于存储所述推理模型运行所需的容器镜像;/n所述服务设计器,用于接收用户对待对外提供在线推理服务的推理模型的配置信息;/n所述模型微服务引擎,用于按照述配置信息在容器镜像仓库中拉取容器镜像、从所述模型仓库中拉取推理模型及元数据;以及,将所述推理模型、元数据和容器镜像进行封装,得到为可容器化运行的模型推理服务,以对外提供在线推理服务。/n

【技术特征摘要】
1.一种在线模型推理系统,其特征在于,所述系统包括:模型仓库、容器镜像仓库、服务设计器以及模型微服务引擎;
所述模型仓库,用于存储推理模型和所述推理模型的元数据;
所述容器镜像仓库,用于存储所述推理模型运行所需的容器镜像;
所述服务设计器,用于接收用户对待对外提供在线推理服务的推理模型的配置信息;
所述模型微服务引擎,用于按照述配置信息在容器镜像仓库中拉取容器镜像、从所述模型仓库中拉取推理模型及元数据;以及,将所述推理模型、元数据和容器镜像进行封装,得到为可容器化运行的模型推理服务,以对外提供在线推理服务。


2.根据权利要求1所述的在线模型推理系统,其特征在于,所述系统还包括:服务状态监控装置;
所述服务状态监控模块用于确定所述模型微服务引擎中的各个用于搭载推理服务的容器实例的CPU使用率、GPU使用率、内存使用率、响应时延以及容器实例数量;以及,计算所述模型微服务引擎中的所述推理服务的准确性指标。


3.根据权利要求2所述的在线模型推理系统,其特征在于,所述系统还包括:容器编排器;
所述容器编排器用于根据所述CPU使用率、GPU使用率、内存使用率、响应时延以及推理服务数量计算期望容器实例数量,并依据所述期望容器实例数量对所述模型微服务引擎中的容器实例进行增加/删减。


4.根据权利要求3所述的在线模型推理系统,其特征在于,根据所述CPU使用率、GPU使用率、内存使用率、响应时延以及推理服务数量计算期望容器实例数量的公式如下:



其中,α、β、γ、δ分别为CPU使用率、GPU使用率、内存使用率、响应时延4个衡量维度的权重因子,取值范围为[0,1],总和为1,ceil表示向下取整。


5.根据权利要求1所述的在线模型推理系统,其特征在于,所述模型微服务引擎中包括:模型筛选器;
所述模型筛选器用于根据配置信息确定筛选策略,并按照所述筛选策略从所述模型仓库中拉取符合所述筛选策略的推理模型。...

【专利技术属性】
技术研发人员:黄绿君高峰斌
申请(专利权)人:京东数字科技控股有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1