pod容量控制方法及装置制造方法及图纸

技术编号:38735646 阅读:20 留言:0更新日期:2023-09-08 23:22
本说明书提供一种pod容量控制方法及装置,涉及云计算平台技术领域,其中pod容量控制方法包括:监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求,以确定相应的服务请求队列集;针对各个AI模型,确定AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标;根据实时TPS、TPS标准值和阻塞队列指标,控制扩大或缩减针对AI模型所对应的pod副本数量。由此,保障不同AI模型的容器资源能够被合理调控,满足并行运行的多个AI模型的实时数据处理的性能需求,同时保障各个AI预测服务能够实现较高的服务响应效率。的服务响应效率。的服务响应效率。

【技术实现步骤摘要】
pod容量控制方法及装置


[0001]本说明书涉及云计算平台
,尤其涉及一种pod容量控制方法及装置。

技术介绍

[0002]随着AI(Artificial Intelligence, 人工智能)技术的不断发展,各行各业正在相继结合AI技术,利用AI技术提升产品竞争力,为企业创造更大的价值。
[0003]AI模型是AI技术落地的核心组成部分,其能够为不同的实际推理预测业务赋能,例如人脸识别、指纹识别和文本识别等等,而AI模型推理预测服务(Inference Service)是将AI模型应用到实际业务的最后环节,通过将多个AI模型封装成一个在线或离线的Service,使用者通过API或SDK调用的方式获取模型的能力,使得AI模型的价值得以充分利用。
[0004]随着云计算平台技术的不断更新,众多厂商选择通过在云计算平台上部署多个AI模型以支持多样化的推理预测业务。基于K8s(Kubernetes)的管理系统较广泛地应用于各类云计算平台,以高效运行、配置及管理云计算平台中的容器化应用程序,即Kubernetes使用一个pod(容器组)来相应管理一个容器化应用,pod也是K8s编排的最小粒度。目前,K8s管理系统依据pod内CPU或内存的使用量,对相应被管理的容器化应用的副本数进行调整,例如自动增加或减少容器化应用的副本数。
[0005]然而,针对AI模型推理预测服务,影响其服务性能的关键指标是服务访问请求的并发数量、AI服务的差异化类型等其他因素,例如图像识别服务一般相比于文本识别服务需求更多的处理资源,而目前以pod的CPU和内存作为扩缩容指标的K8s管理系统,已难以满足AI服务预测平台均衡管理多样化AI模型的容器资源的需求,也无法保障AI服务预测平台的各项AI模型推理预测服务的服务性能。
[0006]针对上述难题,目前业界暂未提出较佳的技术解决方案。

技术实现思路

[0007]本说明书提供一种pod容量控制方法及装置,用以克服现有技术中的AI服务预测平台无法较佳地平衡多个AI预测服务的高服务性能需求与有限的容器资源之间的缺陷。
[0008]本说明书提供一种pod容量控制方法,所述方法包括:监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求,以确定相应的服务请求队列集;其中,每一所述AI模型分别配置有相应的服务请求队列;针对各个所述AI模型,确定所述AI模型的实时TPS(Transactions Per Second, 每秒处理的事务数)、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标;所述实时TPS为所述AI模型当前实际承载的每秒处理事务数,以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数;从所述各个AI模型中,确定待扩容AI模型和/或待缩容AI模型;其中,所述待扩容AI模型定义了等待进行pod扩容的AI模型,所述待缩容AI模型定义了等待进行pod缩容的AI模型;所述待扩容AI模型的实时TPS超过相应的TPS标准值,或者对应的阻塞队列指
标指示存在队列阻塞;所述待缩容AI模型的实时TPS未超过相应的TPS标准值,且对应的阻塞队列指标指示不存在队列阻塞;根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量,和/或,根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。
[0009]本说明书还提供一种pod容量控制装置,所述装置包括:队列确定单元,被配置成监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求,以确定相应的服务请求队列集;其中,每一所述AI模型分别配置有相应的服务请求队列;参数确定单元,被配置成针对各个所述AI模型,确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标;所述实时TPS为所述AI模型当前实际承载的每秒处理事务数,以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数;扩缩容模型确定单元,被配置成从所述各个AI模型中,确定待扩容AI模型和/或待缩容AI模型;其中,所述待扩容AI模型定义了等待进行pod扩容的AI模型,所述待缩容AI模型定义了等待进行pod缩容的AI模型;所述待扩容AI模型的实时TPS超过相应的TPS标准值,或者对应的阻塞队列指标指示存在队列阻塞;所述待缩容AI模型的实时TPS未超过相应的TPS标准值,且对应的阻塞队列指标指示不存在队列阻塞;扩缩容操作单元,被配置成根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量,和/或,根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。
[0010]本说明书提供的pod容量控制方法及装置,AI服务预测平台通过监测访问各个AI模型的预测服务请求,分类成针对各个AI模型的服务请求队列,综合分析各个AI模型的服务请求队列的阻塞情况和实时TPS,以对各个AI模型的pod容量进行动态缩扩容操作。由此,保障不同AI模型的容器资源能够被合理调控,满足并行运行的多个AI模型的实时数据处理的性能需求,同时保障各个AI预测服务能够实现较高的服务响应效率,优化了AI服务预测平台所提供的并行的多样化预测服务的服务质量。
附图说明
[0011]为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0012]图1示出了适于应用本说明书实施例的pod容量控制方法的环境的一示例的架构示意图;图2示出了根据本说明书实施例的一种pod容量控制方法的一示例的流程图;图3示出了根据适于应用本说明书实施例的pod容量控制方法的AI服务预测平台的一示例的架构示意图;图4示出了根据本说明书实施例的各个AI模型和相应服务请求队列的配置示意图;图5示出了根据本说明书实施例的AI模型设置页面的一示例的界面示意图;图6示出了根据图2中的步骤S240的一示例的操作流程图;
图7示出了根据图6中的步骤S620的一示例的操作流程图;图8示出了根据图7中的步骤S743的一示例的操作流程图;图9示出了根据图6中的步骤S620的另一示例的操作流程图;图10示出了根据本说明书实施例的AI预测服务的伸缩状态监控页面的一示例的界面示意图;图11示出了根据本说明书实施例的人脸识别服务的伸缩详情页面的一示例的界面示意图;图12示出了根据本说明书实施例的pod容量控制装置的一示例的结构框图;图13是本说明书提供的电子设备的结构示意图。
具体实施方式
[0013]为使本说明书的目的、技术方案和优点更加清楚,下面将结合本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种pod容量控制方法,其特征在于,所述方法包括:监测用于调用预设的AI模型集中至少一个AI模型的至少一个预测服务请求,以确定相应的服务请求队列集;其中,每一所述AI模型分别配置有相应的服务请求队列;针对各个所述AI模型,确定所述AI模型的实时TPS、预设的单副本TPS、预设的TPS标准值和相应服务请求队列的阻塞队列指标;所述实时TPS为所述AI模型当前实际承载的每秒处理事务数,以及所述单副本TPS为所述AI模型所对应的单个pod副本所能够最大承载的每秒处理事务数;从各个所述AI模型中,确定待扩容AI模型和/或待缩容AI模型;其中,所述待扩容AI模型定义了等待进行pod扩容的AI模型,所述待缩容AI模型定义了等待进行pod缩容的AI模型;所述待扩容AI模型的实时TPS超过相应的TPS标准值,或者对应的阻塞队列指标指示存在队列阻塞;所述待缩容AI模型的实时TPS未超过相应的TPS标准值,且对应的阻塞队列指标指示不存在队列阻塞;根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量,和/或,根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。2.根据权利要求1所述的pod容量控制方法,其特征在于,所述TPS标准值和所述单副本TPS是通过以下操作而预设置的:获取用户设置指令,所述用户设置指令包括模型标识信息、单副本TPS设置信息和TPS标准设置信息;根据所述单副本TPS设置信息和所述TPS标准设置信息,分别确定与所述模型标识信息对应的AI模型的单副本TPS和TPS标准值。3.根据权利要求1所述pod容量控制方法,其特征在于,根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量,包括:在确定所述待缩容AI模型的实时TPS为零,且阻塞队列指标指示所述待缩容AI模型相应的服务请求队列超过预设时间段未新增服务请求的情况下,清空所述待缩容AI模型所对应的pod副本数量。4.根据权利要求1所述pod容量控制方法,其特征在于,所述根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量,和/或,根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量,包括:获取历史扩缩容记录;所述历史扩缩容记录包括至少一个历史扩缩容操作和相应的历史操作时间,所述历史扩缩容操作包括历史扩容操作和历史缩容操作;计算各个所述历史操作时间与当前时间之间的时间间隔;在确定各个所述时间间隔中的最小值大于预设的冷却时间的情况下,根据所述待扩容AI模型的实时TPS、TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量,和/或,根据所述待缩容AI模型的实时TPS、TPS标准值和单副本TPS控制缩减所述待缩容AI模型所对应的pod副本数量。5.根据权利要求1所述pod容量控制方法,其特征在于,所述根据所述待扩容AI模型的实时TPS、所述TPS标准值和单副本TPS控制扩大所述待扩容AI模型所对应的pod副本数量,
包括:根据所述待扩容AI模型的实时TPS、所述TPS标准值和单副本TPS,确定所述待扩容AI模型所对应的待扩充的需求pod副本数量;在确定预设的副本调度池中的pod副本的数量大于或等于所述需求pod副本数量的情况下,根据所述副本调度池中的pod副本控制扩大所述待扩容AI模型所对应的pod副本数量;所述副本调度池用于供调度以向所述各个AI模型扩充相应的pod副本,以及收集从所述各个AI模型所对应的已缩减的pod副本。6.根据权利要求5所述pod容量控制方法,其特征在于...

【专利技术属性】
技术研发人员:张超程昊张晓杨嘉屹李方遒苏清博张晓慧密晓光张晴张月
申请(专利权)人:中海石油气电集团有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1