基于模型服务自动化的多机部署调度方法和装置制造方法及图纸

技术编号:36747359 阅读:33 留言:0更新日期:2023-03-04 10:30
本发明专利技术提出一种基于模型服务自动化的多机部署调度方法,包括:通过客户端获取表示模型服务工作流的JSON描述文件并发出服务初始化请求,由调度服务器接收所述请求并分配推理服务器资源;通过调度服务器基于动态加权最少连接算法为每个客户端分配能满足其需求的推理服务器资源;将所述推理服务器资源对应的推理服务器的请求调用IP和端口返回给所述客户端,通过所述客户端对所述请求调用服务实例进行推理,返回推理结果。本发明专利技术的方法通过多机部署、负载均衡的方式为客户端动态分配推理服务器资源,提升了推理服务的稳定性。提升了推理服务的稳定性。提升了推理服务的稳定性。

【技术实现步骤摘要】
基于模型服务自动化的多机部署调度方法和装置


[0001]本专利技术涉及人工智能应用领域。

技术介绍

[0002]随着人工智能理论和技术的不断发展,人工智能场景融合能力不断提升,单一的神经网络模型已不足以支撑大量复杂多变的业务场景,尤其是面向开放环境,如电力领域,复杂多变的场景和任务中常存在类别增加、属性变动、目标多样等问题,需由多个模型组成不同的工作流处理。不同场景、任务间的来回迁移造成模型管理和工作流管理上的困难,也限制了技术复用的灵活性和可扩展性。因此,如何快速、高效地组合编排模型与数据处理组件,自动化构建敏捷、灵活的模型服务工作流具有很大的实用价值和研究意义。
[0003]目前主流的模型服务库如Tensorflow Serving和TorchServe仅支持各自的Tensorflow和Pytorch框架,无法为其他框架提供模型的服务与管理功能;BentoML和MLFlow支持多框架的大规模深度学习模型快速部署,可通过配置文件自定义模型版本的加载策略,管理模型迭代,但并不支持模型编排工作流的实现,无法实现在复杂开放场景下深度学习模型本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于模型服务自动化的多机部署调度方法,其特征在于,包括以下步骤:通过客户端获取表示模型服务工作流的JSON描述文件并发出服务初始化请求,由调度服务器接收所述请求并分配推理服务器资源;通过调度服务器基于动态加权最少连接算法为每个客户端分配能满足其需求的推理服务器资源;将所述推理服务器资源对应的推理服务器的请求调用IP和端口返回给所述客户端,通过所述客户端对所述请求调用服务实例进行推理,返回推理结果。2.根据权利要求1所述的方法,其特征在于,所述通过所述客户端对所述请求调用服务实例进行推理,返回推理结果,包括:获取能有效表示模型服务工作流的JSON描述文件;对所述JSON描述文件进行处理,获取所述模型服务工作流的图结构的信息;根据所述图结构的信息完成所述图结构的初始化和模型实例化;层序化完成初始化和模型实例化的图结构中各节点执行顺序,形成多模型与数据处理组件、后处理组件组合执行的服务实例;获取客户端的请求数据,对所述请求数据调用所述服务实例进行推理,返回推理结果。3.根据权利要求2所述的方法,其特征在于,所述图结构的信息包括节点信息和边信息。4.根据权利要求2或3所述的方法,其特征在于,所述根据所述图结构的信息完成所述图结构的初始化和模型实例化,包括:1)根据所述节点信息和边信息来初始化图结构,图G=(V(G),E(G));2)从图节点V(G)中依次选取Vi;3)若所述Vi是模型节点,则执行步骤4),否则转步骤7);4)若所述模型节点已在模型仓库完成注册,转步骤6),否则转步骤5);5)在模型仓库注册该模型节点;6)获取模型参数并实例化模型节点;7)判断V(G)中节点是否遍历完毕,若是则流程结束,否则转步骤2)。5.根据权利要求2所述的方法,其特征在于,所述层序化完成初始化和模型实例化的图结构中各节点执行顺序,形成多模型与数据处理组件、后处理组件组合执行的服务实例,包括:1)初始化层序执行列表L;2)生成有向无环图G的拓扑排序列表T(G);3)从T(G)中依次...

【专利技术属性】
技术研发人员:欧中洪范丽娜周晓阳尧思远宋美娜
申请(专利权)人:四方联盟北京科技发展有限公司中网数安北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1