面向电力超算云资源自动扩展的智能化管理系统及方法技术方案

技术编号:38641979 阅读:11 留言:0更新日期:2023-08-31 18:34
本发明专利技术公开了一种面向电力超算云资源自动扩展的智能化管理系统及方法,该系统包括中心控制模块、Prometheus服务监控和采集模块、需求分析模块、容量规划模块和Kubernetes集群,中心控制模块用于统筹各模块的工作;Prometheus服务监控和采集模块用于收集、处理和汇总服务的实时量化数据;需求分析模块用于查询可用的历史数据并检查性能质量参考指标,使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖,对未来负载进行有效预测;容量规划模块用于依据负载预测,估计在下一个扩展操作中应该调配或取消调配的资源数量。本发明专利技术鲁棒性高;可有效地抑制资源扩展的抖动现象。抖动现象。抖动现象。

【技术实现步骤摘要】
面向电力超算云资源自动扩展的智能化管理系统及方法


[0001]本专利技术涉及云计算资源调配
,尤其公开了一种面向电力超算云资源自动扩展的智能化管理系统及方法。

技术介绍

[0002]超算中心的云资源为最终用户提供了极大的便利性和成本效益。越来越多的电力公司依托云资源打造出信息化的支撑平台,对内整合资源、提升公司管理水平,对外拓展业务、提升服务质量。随着互联网普及和大数据的发展,电力系统的云端业务常常面临着海量数据流和高并发的现象。为了保障用户的服务质量,云中的关键型业务通常使用过度调配的资源进行部署,从而造成了巨大的能源消耗和额外的成本开销。据统计,云服务中心已经成为全球的主要碳源之一。不断上涨的能源成本、监管要求以及社会对温室气体排放的担忧,使得降低功耗对超算中心至关重要。但是,如果超算中心没有按照预定义的服务级别协议或者违背了服务质量目标,这将毫无意义。因为过高的处理时延,甚至是通信阻塞,对于用户来说是不可接受的。为此,如何降低能源消耗并满足用户服务水平协议成为当今云计算平台面临的一个重大挑战。
[0003]受新兴云计算范式的吸引,越来越多的超算中心将资源的自动扩展系统引入到业务的配置管理中。它允许云用户按需释放或获取计算资源,这使得超算中心平台能够依据动态的工作负载自动地为其业务程序调配所需的资源,而无需人工干预。资源扩展可以是水平的,也可以是垂直的。在水平扩展中,资源单元是服务实例(虚拟机或容器),平台根据负载添加或删除新的实例。相比之下,垂直扩展通过给已经分配的服务实例添加或减少资源(例如,增加处理器的个数或减少内存大小)来实现资源的伸缩。然而,常见的操作系统或虚拟单元都不支持在其运行的时候动态的改变其所分配的资源。因此,大多数的云平台只提供基于服务实例的水平扩展。
[0004]目前,云服务中心主要提供了基于阈值的被动方法来帮助用户实现资源的自动扩展。一个典型的例子是:当监控系统发现服务实例的CPU利用率超过了70%,则添加一个实例。“70%”则是由用户手动指定的阈值。从理论上讲,简单的基于阈值的方法不涉及准确的资源估计,只涉及经验估计,这是硬编码在规则的操作部分,如添加或删除一定数量或百分比的实例。显然,对于用户来说指定适当的阈值并不总是简单的,尤其在功能复杂的业务场景中和资源监控指标多样的情况下。与此同时,新增的服务实例从启动到提供服务可能会消耗以分钟为单位的时间,因此难以适用于突发的网络负载。另外,不恰当的资源调配方案还会导致服务实例数量的抖动。这意味着资源扩展系统在短时间内频繁的执行相反的操作(扩充实例后立即释放,反之亦然)。服务实例数量的抖动并不是免费的,它会导致严重的资源浪费和更多违反服务级别协议的行为。
[0005]理想情况下,超算平台应该能够在满足用户协议和云资源成本之间找到平衡点。为此,本实施例提出了面向电力超算云资源自动扩展的智能化管理系统。系统中采用按需的、自动的,基于人工智能的长序列预测方法来预测未来的负载强度,并通过运行时服务需
求估计组件来计算未来时刻应用程序所需要的实例数量。通过这种方式,不同的应用程序可以利用自动伸缩器,而无需定制设置和准备。它们对于生产过程中的变化也更加鲁棒,因为学习算法可以根据任何显著事件自适应地动态调整模型。此外,该系统采用等待窗口机制,以细粒度的方式缓解资源的频繁调配,从而抑制资源扩展的抖动现象。

技术实现思路

[0006]本专利技术提供了一种面向电力超算云资源自动扩展的智能化管理系统及方法,旨在解决现有云服务中心提供的基于阈值的被动方法中存在的难以适用于突发的网络负载、以及不恰当的资源调配方案还会导致服务实例数量的抖动的技术问题。
[0007]本专利技术的一方面涉及一种面向电力超算云资源自动扩展的智能化管理系统,包括中心控制模块、Prometheus服务监控和采集模块、需求分析模块、容量规划模块和Kubernetes集群,其中,
[0008]中心控制模块作为系统的中枢,分别与Prometheus服务监控和采集模块、需求分析模块、容量规划模块和Kubernetes集群相连接,用于统筹Prometheus服务监控和采集模块、需求分析模块和容量规划模块的工作,并通过资源伸缩指令控制Kubernetes集群中的业务容器数量;
[0009]Prometheus服务监控和采集模块,用于收集、处理和汇总服务的实时量化数据,并把收集来的数据存储在时序数据库中;
[0010]需求分析模块,用于查询可用的历史数据并检查性能质量参考指标,使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖,对未来负载进行有效预测;
[0011]容量规划模块与需求分析模块相连接,用于依据需求分析模块的负载预测,估计在下一个扩展操作中应该调配或取消调配的资源数量;还用于优化资源的构成,在保证服务质量的同时,避免在资源调配的过程中发生抖动现象。
[0012]进一步地,面向电力超算云资源自动扩展的智能化管理系统还包括负载均衡器,负载均衡器与Kubernetes集群相连接,由traefik构建,用于负载请求路由的分发。
[0013]本专利技术的另一方面涉及一种面向电力超算云资源自动扩展的智能化管理方法,应用于上述的面向电力超算云资源自动扩展的智能化管理系统中,面向电力超算云资源自动扩展的智能化管理方法包括以下步骤:
[0014]配置和部署Prometheus服务监控和采集模块用于收集、处理和汇总服务的实时量化数据;
[0015]控制系统进入预热阶段,在预热阶段中使用Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型,使其达到稳定的收敛状态;
[0016]中心控制模块在预热阶段后定期轮询时序数据库中可用的历史数据,并检查服务质量协议;
[0017]中心控制模块接收Prometheus服务监控和采集模块返回的时序数据;
[0018]中心控制模块将接收到的时序数据进行预处理后转发到需求分析模块;
[0019]需求分析模块接收到真实的历史数据后,对基于Transformer架构的预测模型进行滚动训练,并对未来的负载实施预测;
[0020]需求分析模块将负载预测序列和服务质量目标发送给容量规划模块;
[0021]容量规划模块在接收到负载预测值和服务质量目标后进行分析并实施服务实例数量的规划;
[0022]中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作;
[0023]中心控制模块如果识别到实例的数量保持不变,则结束本周期并等待下一个周期;如果识别到需要扩缩资源,则中心控制模块向Kubernetes集群发送API Server指令;
[0024]Kubernetes集群中的Master节点接收到信息后向Worker节点发送指令,以执行相应的服务实例数量的扩缩操作。
[0025]进一步地,控制系统进入预热阶段,在预热阶段中使用Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型,使其达本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向电力超算云资源自动扩展的智能化管理系统,其特征在于,包括中心控制模块(10)、Prometheus服务监控和采集模块(20)、需求分析模块(30)、容量规划模块(40)和Kubernetes集群(50),其中,所述中心控制模块(10)分别与所述Prometheus服务监控和采集模块(20)、所述需求分析模块(30)、所述容量规划模块(40)和所述Kubernetes集群(50)相连接,用于作为系统的中枢,统筹所述Prometheus服务监控和采集模块(20)、所述需求分析模块(30)和所述容量规划模块(40)的工作,并通过资源伸缩指令控制所述Kubernetes集群(50)中的业务容器数量;所述Prometheus服务监控和采集模块(20),用于收集、处理和汇总服务的实时量化数据,并把收集来的数据存储在时序数据库中;所述需求分析模块(30),用于查询可用的历史数据并检查性能质量参考指标,使用基于Transformer长序列预测模型捕获输入与输出之间的远程依赖,对未来负载进行有效预测;所述容量规划模块(40)与所述需求分析模块(30)相连接,用于依据所述需求分析模块(30)的负载预测,估计在下一个扩展操作中应该调配或取消调配的资源数量;还用于优化资源的构成,在保证服务质量的同时,避免在资源调配的过程中发生抖动现象。2.如权利要求1所述的面向电力超算云资源自动扩展的智能化管理系统,其特征在于,所述面向电力超算云资源自动扩展的智能化管理系统还包括负载均衡器(60),所述负载均衡器(60)与所述Kubernetes集群(50)相连接,由traefik构建,用于负载请求路由的分发。3.一种面向电力超算云资源自动扩展的智能化管理方法,应用于如权利要求1和2任意一项所述的面向电力超算云资源自动扩展的智能化管理系统中,其特征在于,所述面向电力超算云资源自动扩展的智能化管理方法包括以下步骤:配置和部署所述Prometheus服务监控和采集模块用于收集、处理和汇总服务的实时量化数据;控制系统进入预热阶段,在预热阶段中使用所述Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型,使其达到稳定的收敛状态;所述中心控制模块在预热阶段后定期轮询时序数据库中可用的历史数据,并检查服务质量协议;所述中心控制模块接收所述Prometheus服务监控和采集模块返回的时序数据;所述中心控制模块将接收到的时序数据进行预处理后转发到所述需求分析模块;所述需求分析模块接收到真实的历史数据后,对基于Transformer架构的预测模型进行滚动训练,并对未来的负载实施预测;所述需求分析模块将负载预测序列和服务质量目标发送给所述容量规划模块;所述容量规划模块在接收到负载预测值和服务质量目标后进行分析并实施服务实例数量的规划;所述中心控制模块根据下一阶段服务所需的实例数量决定是否进行扩缩操作;所述中心控制模块如果识别到实例的数量保持不变,则结束本周期并等待下一个周期;如果识别到需要扩缩资源,则所述中心控制模块向所述Kubernetes集群发送API Server指令;
所述Kubernetes集群中的Master节点接收到信息后向Worker节点发送指令,以执行相应的服务实例数量的扩缩操作。4.如权利要求3所述的面向电力超算云资源自动扩展的智能化管理方法,其特征在于,所述控制系统进入预热阶段,在预热阶段中使用所述Prometheus服务监控和采集模块将收集来的数据训练长序列预测模型,使其达到稳定的收敛状态的步骤包括:预测模型把历史时刻的负载信息通过映射函数转换维度为d
x
的向量;然后通过如下公式获取当前时刻的最终特征向量:x=e
l
+e
p
+e
w
+e
h
其中,x为当前时刻的最终特征向量,e
l
为负载特征编码,e
p
为位置编码,e
w
为时间编码,e
h
表示节假日编码;定义模型的输入,令模型的历史滚动窗口长度为L
x
,则在时间t时刻,模型输入序列表示为:其中,X
t
表示在t时刻输入的特征序列,表示在历史滑动窗口L
x
的长度中,索引为1的特征编码;相应的,模型的目的是依据输入预测未来时刻的负载序列:其中,Y
t
表示预测未来时刻的负载序列,L
y
表示预测的滑动窗口的长度,表示在预测滑动窗口L
y
的长度中,在索引为L
y
处的预测负载;预测模型基于Transformer架构,多头自注意力是预测模型的关键,多头自注意力的计算公式如下所示:MultiHead(Q,K,V)=Concat(head1,...,head
h
)W
m
head
i
=SelfAttention(QW
iQ
,KW
iK
,VW
iV
)其中,MultiHead(
·
)表示多头注意力的计算公式,Q、K、V分别表示查询矩阵、键矩阵和值矩阵;head
i
指的是在多头注意力的算法中,第i个头的计算公式;SelfAttention(
·
)表示自注意力的计算方法;W
m
,W
i
,W
q
,W
k
,W
v
指的是可学习的参数矩阵;d
k
表示特征...

【专利技术属性】
技术研发人员:粟海斌刘珺詹柱刘斌欧阳宏剑
申请(专利权)人:方心科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1