一种异构推理后端上的可扩展负载均衡方法及系统技术方案

技术编号:39594721 阅读:15 留言:0更新日期:2023-12-03 19:50
本发明专利技术公开了一种异构推理后端上的可扩展负载均衡方法及系统,包括如下步骤:

【技术实现步骤摘要】
一种异构推理后端上的可扩展负载均衡方法及系统


[0001]本专利技术涉及计算机网络
,尤其涉及一种异构推理后端上的可扩展负载均衡方法及系统


技术介绍

[0002]从物联网和移动设备到边缘和云服务器,机器学习(
ML
)模型的推理服务无处不在

高精度和低延迟是大多数推理服务共有的两个典型服务级目标

在实际系统中,由于资源的限制,应用程序通常对精度和延迟有不同的偏好

像虚拟现实和语音助手这样的应用程序来说,确保实时推理是非常重要的

[0003]现有方法主要集中在提高单个后端推理效率和生成精度和延迟不等的推理后端

模型压缩减小了
ML
模型的大小,以便在移动甚至嵌入式设备上执行低延迟推理,但精度略有下降

近似缓存从缓存中为到达的查询返回与先前处理的查询类似的快速响应

近似缓存机制需要在命中率和返回推断结果的准确性之间进行权衡

管道配置调整特定于任务的可配置旋钮(例如,视频分析中的帧分辨率和骨干神经网络),以平衡效率和准确性,以上这些方法均不能自适应的实现精度

延迟权衡


技术实现思路

[0004]基于
技术介绍
存在的技术问题,本专利技术提出了一种异构推理后端上的可扩展负载均衡方法及系统,根据实时精度,动态地将查询分配到静态更快的推理后端,以实现自适应的精度
/>延迟权衡

[0005]本专利技术提出的一种异构推理后端上的可扩展负载均衡方法,包括如下步骤:
S1
:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
S2
:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤
S3
的后端选择顺序;
S3
:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤
S2
中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤
S2
中优先级排序去掉一个低优先级的推理后端

[0006]步骤
S2
的推理后端优先级计算过程如下:其中,表示精度和时延权衡能力值,表示第个推理后端,表示第个推理后端的推理精度,表示第个推理后端的服务速率,表示常数

[0007]进一步地,在步骤
S1
:将多个推理后端中的其中一个后端作为黄金标准后端,基于
黄金标准后端估计其他推理后端的推理精度中,具体包括:将多个推理后端中的其中一个后端作为黄金标准后端;在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度

[0008]进一步地,在步骤
S3
的计算上一个查询队列和当前查询队列的等待时间中,其中查询队列的具体公式如下:其中,表示等待时间,表示查询队列,表示队列长度,表示前个推理后端的平均服务速率,表示查询请求的到达速率,表示最大等待时间

[0009]进一步地,在步骤
S1
:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,黄金标准后端处理查询请求时,推理后端需满足两个条件:一是推理后端空闲,二是推理后端的服务速率高于当前到达速率

[0010]一种异构推理后端上的可扩展负载均衡的系统,包括推理精度估计模块

优先级计算模块和负载平衡输出模块;推理精度估计模块用于将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;优先级计算模块用于计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为负载平衡输出模块的后端选择顺序;负载平衡输出模块用于设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据优先级计算模块中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据优先级计算模块中优先级排序去掉一个低优先级的推理后端

[0011]本专利技术提供的一种异构推理后端上的可扩展负载均衡方法及系统的优点在于:本专利技术结构中提供的一种异构推理后端上的可扩展负载均衡方法及系统,能够自适应地通过负载平衡控制器来决定每个查询应该分布到哪个后端

利用了动态精度估计器以及考虑系状态和用户需求的后端优先排序器,本专利技术在大规模高并发的系统上可以实现异构推理后端上的负载均衡

本实施例设计了一个动态感知负载和精度的负载平衡控制器,实现延迟与准确性之间的权衡

适用于云端大规模数据分析

物联网边缘数据实时分析,端设备低功耗数据分析等场景

附图说明
[0012]图1为本专利技术的流程示意图;图2为动态精度估计器

后端优先排序器和负载平衡控制器之间逻辑关系示意图;图3为负载平衡控制器的平衡逻辑示意图

具体实施方式
[0013]下面,通过具体实施例对本专利技术的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本专利技术

但是本专利技术能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本专利技术内涵的情况下做类似改进,因此本专利技术不受下面公开的具体实施的限制

[0014]为了解决
技术介绍
中的技术问题,本实施例通过协作地利用多个异构推理后端,而不是独立地使用单个后端的方式实现负载平衡

具体来说,需要一个与机制无关的负载平衡控制器来决定每个查询应该分布到哪个后端,它面临以下三个主要挑战:1)精度感知与领域相关的精度动态变化

由于优化机会在于低延迟后端可以输出高精度结果的查询,因此控制器需要具有精度感知能力

[0015]2)负载感知与随机突发流量

推理服务系统必须响应随机和突发的查询流量

[0016]3)高频控制与指数扩展决策空间

根据理论分析,搜索最优负载平衡决策的复杂性随着推理后端数量的增加呈指数增长

需要高频控制来最大化优化机会和最小化违反的概率

[0017]因而本实施例提出了在异构推理后端上自适应推理查询的方法,如图1至3所示,本专利技术提出的一种异构推理后端上的可扩展负载均衡方法,包括如下步骤:
S1...

【技术保护点】

【技术特征摘要】
1.
一种异构推理后端上的可扩展负载均衡方法,其特征在于,包括如下步骤:
S1
:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度;
S2
:计算所有推理后端的优先级,以推理后端由高到低的优先级排序作为步骤
S3
的后端选择顺序;
S3
:设定控制阈值,计算上一个查询队列和当前查询队列的等待时间,若当前查询队列的等待时间大于控制阈值,则根据步骤
S2
中的优先级排序添加一个高优先级的推理后端,若上一个查询队列的等待时间小于等于控制阈值,则根据步骤
S2
中优先级排序去掉一个低优先级的推理后端;步骤
S2
的推理后端优先级计算过程如下:其中,表示精度和时延权衡能力值,表示第个推理后端,表示第个推理后端的推理精度,表示第个推理后端的服务速率,表示常数
。2.
根据权利要求1所述的异构推理后端上的可扩展负载均衡方法,其特征在于,在步骤
S1
:将多个推理后端中的其中一个后端作为黄金标准后端,基于黄金标准后端估计其他推理后端的推理精度中,具体包括:将多个推理后端中的其中一个后端作为黄金标准后端;在一个时间窗口内收集进入包含黄金标准后端和其他推理后端的数据对,并记录数据对在黄金标准后端的输出结果;以数据对在黄金标准后端的输出结果为标准,计算其他推理后端输出部分重合数据对的输出结果精度,以该输出结果精度估计其他推理后端推理精度
。3.
根据权利要求1所述的异构推理后端上的可扩展负...

【专利技术属性】
技术研发人员:张兰李向阳袁牧宋淼荟
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1