一种基于k8s结合灾备演练故障预测及Pod调度的方法技术

技术编号:35296545 阅读:8 留言:0更新日期:2022-10-22 12:44
本发明专利技术公开了一种基于k8s结合灾备演练故障预测及Pod调度的方法,包括在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群,同时在组网内各地子网建立一个Node节点;在组网内Master在非中央指定子网创建一个备份Node节点并部署数据收集服务Pod,再向Master发送请求获取参与灾备演练的各地Node下Pod演练数据;选择不同的模型数据分析方式,构建并训练马尔可夫链模型,获得下一次k8s集群灾备演练各步骤可能发生故障的概率;对马尔可夫链模型训练结果及参与分析的数据进行存储。解决了通过主机管理k8s集群的方式不能满足跨k8s集群管理需求的技术问题,提高了Pod调度的灵活性。度的灵活性。度的灵活性。

【技术实现步骤摘要】
一种基于k8s结合灾备演练故障预测及Pod调度的方法


[0001]本专利技术属于灾备演练
,具体涉及一种基于k8s结合灾备演练故障预测及Pod调度的方法。

技术介绍

[0002]随着数字化技术的逐渐发展,网络安全已经成为社会发展的重要保证,使得异地灾备更加具有参考价值。灾备数据信息的收集和处理是灾备演练中的一个重要环节,信息收集全面,数据准确能够保证灾备演练的各任务正常执行。演练的处理过程是高度接近真实灾难发生时的处理过程,确保了灾备演练能够对工作起到作用,从而使灾备自动演练对数据维护起到参考作用。
[0003]传统意义上的灾备数据收敛及分析方法均存在一定维度局限,存在资源浪费的问题,且各地灾备关联的隐私数据相互分析运算也不方便。不利于运维人员对大型组网内各地灾备系统状态的分析和数据处理。

技术实现思路

[0004]本专利技术所要解决的技术问题是针对上述现有技术的不足,提供一种基于k8s结合灾备演练故障预测及Pod调度的方法,解决了通过主机管理k8s集群的方式不能满足跨k8s集群管理需求的技术问题,提高了Pod调度的灵活性。
[0005]为实现上述技术目的,本专利技术采取的技术方案为:
[0006]一种基于k8s结合灾备演练故障预测及Pod调度的方法,包括:
[0007]步骤1、在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群,同时在组网内各地子网建立一个Node节点,所述中央调度集群包括:主节点Master、Node节点、数据收集服务Pod;/>[0008]步骤2、在组网内Master通过k8s的API server在非中央指定子网创建一个备份Node节点并部署数据收集服务Pod,再通过k8s的API server向Master发送请求获取参与灾备演练的各地Node下Pod演练数据;
[0009]步骤3、根据业务特征选择不同的模型数据分析方式分析训练Pod演练数据,以构建并训练马尔可夫链模型,获得下一次k8s集群灾备演练各步骤可能发生故障的概率;
[0010]步骤4、马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的历史灾备演练数据库。
[0011]为优化上述技术方案,采取的具体措施还包括:
[0012]上述的步骤1所述中央集群管理服务器所在网络节点为集群中央管理节点,中央调度集群包括三个对象:主节点Master、Node节点、数据收集服务Pod,其部署方式为:
[0013]所述中央集群管理服务器上部署Master以及创建组网内包括中央及各地所有Node,在中央集群管理服务器上部署计算Node和计算程序,计算程序负责通过k8s的API server向备份Node节点获取需要的灾备演练数据,并进行相关灾备演练业务的分析及计
算;
[0014]中央服务器部署历史灾备演练数据库,负责存储分析结果,存储分析包括:参与灾备演练业务的每个Pod或Pod集合运算结果;
[0015]运算结果包括:运算发生时间、Pod名称、PodIP、所属Node节点、及异地参与运算Pod及所属Node本次分析及运算的结果数据。
[0016]上述的步骤2中,Master收到请求命令后开始向各地参与灾备演练的Node下发收集数据指令,直到将参与灾备演练的Node下的数据收集服务Pod存储的数据传递给备份Node节点。
[0017]上述的步骤3有如下两种数据分析方式可选择:
[0018]方式一:异地数据分析:将灾备演练的数据放在不同运算点进行数据训练,最后针对数据训练结果进行集合分析,提取最接近真实的数据结果;
[0019]方式二:集中数据分析:备份Node节点集中运算:
[0020]首先,获取备份Node节点下各地方参与灾备演练的Pod数据;
[0021]其次,备份Node节点收到指令后通过k8s的API server将参与计算及分析的Pod或Pod集合的灾备演练数据发送给计算Node提取最接近真实的数据结果。
[0022]上述的步骤3构建马尔可夫链模型如下:
[0023]P(X
(n+1)
=i|X
(n)
=j,X
(n

1)
=i
(n

1)
,...,X
(0)
=i
(0)
)=P
ij
,n≥0
[0024]P
ij
代表从给定的当前灾备演练步骤j转移到灾备演练步骤i的概率;
[0025]X
(n)
代表当前灾备演练步骤;
[0026]X
(n+1)
代表下一灾备演练步骤;
[0027]其中,i,j,i0,i
j
,...,i
n
‑1∈M,此随机过程为马尔可夫链。
[0028]上述的步骤3生成马尔可夫链数据集合,对马尔可夫链模型进行训练;
[0029]所述马尔可夫链数据集合生成方法为:
[0030]1)获得灾备演练过程中各步骤发生故障初始概率值及每次灾备演练过程中发生异常的灾备演练数据集合;
[0031]2)通过部署在中央服务器的计算Node上的计算程序执行将参与灾备演练的Pod数据聚合,按照灾备演练步骤,以步骤名称为查询条件访问部署在中央服务器的历史灾备演练数据库灾备演练过程中各步骤发生异常的演练数据;
[0032]所述灾备演练步骤包括事件上报、业务预警、灾害评估;
[0033]3)通过灾备演练过程中各步骤的计算公式获得各步骤发生故障初始概率和按演练时间从远到近有序生成的非初始概率,构成马尔可夫链数据集合。
[0034]上述的3)所述各步骤发生故障初始概率获得方式如下:
[0035]事件上报步骤发生故障初始概率:从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数;
[0036]业务预警步骤发生故障初始概率=从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数;
[0037]灾害评估步骤发生故障初始概率=从历史灾备演练数据库中当前步骤灾备演练发生故障的条数/包含当前步骤灾备演练总条数。
[0038]上述的3)所述非初始概率通过事件上报为查询条件访问历史灾备演练数据库获
取。
[0039]上述的步骤3将初始概率和非初始概率生成矩形数据集合放入马尔可夫链模型进行训练,最终获得下一次k8s集群灾备演练各步骤可能发生故障的概率。
[0040]上述的步骤4通过计算程序将收集到的马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的历史灾备演练数据库;
[0041]存储的数据包括演练时间、参与Pod名称、参与PodIP、参与Node节点、及灾备演练发生故障概率值、灾备演练是否异常标识、演练序号。
[0042]本专利技术具有以下有益效果:...

【技术保护点】

【技术特征摘要】
1.一种基于k8s结合灾备演练故障预测及Pod调度的方法,其特征在于,包括:步骤1、在组网内的中央集群管理服务器上创建一个基于k8s的中央调度集群,同时在组网内各地子网建立一个Node节点,所述中央调度集群包括:主节点Master、Node节点、数据收集服务Pod;步骤2、在组网内Master通过k8s的API server在非中央指定子网创建一个备份Node节点并部署数据收集服务Pod,再通过k8s的API server向Master发送请求获取参与灾备演练的各地Node下Pod演练数据;步骤3、根据业务特征选择不同的模型数据分析方式分析训练Pod演练数据,以构建并训练马尔可夫链模型,获得下一次k8s集群灾备演练各步骤可能发生故障的概率;步骤4、马尔可夫链模型训练结果及参与分析的数据存储到中央服务器部署的历史灾备演练数据库。2.根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法,其特征在于,步骤1所述中央集群管理服务器所在网络节点为集群中央管理节点,中央调度集群包括三个对象:主节点Master、Node节点、数据收集服务Pod,其部署方式为:所述中央集群管理服务器上部署Master以及创建组网内包括中央及各地所有Node,在中央集群管理服务器上部署计算Node和计算程序,计算程序负责通过k8s的API server向备份Node节点获取需要的灾备演练数据,并进行相关灾备演练业务的分析及计算;中央服务器部署历史灾备演练数据库,负责存储分析结果,存储分析包括:参与灾备演练业务的每个Pod或Pod集合运算结果;运算结果包括:运算发生时间、Pod名称、PodIP、所属Node节点、及异地参与运算Pod及所属Node本次分析及运算的结果数据。3.根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法,其特征在于,步骤2中,Master收到请求命令后开始向各地参与灾备演练的Node下发收集数据指令,直到将参与灾备演练的Node下的数据收集服务Pod存储的数据传递给备份Node节点。4.根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法,其特征在于,所述步骤3有如下两种数据分析方式可选择:方式一:异地数据分析:将灾备演练的数据放在不同运算点进行数据训练,最后针对数据训练结果进行集合分析,提取最接近真实的数据结果;方式二:集中数据分析:备份Node节点集中运算:首先,获取备份Node节点下各地方参与灾备演练的Pod数据;其次,备份Node节点收到指令后通过k8s的API server将参与计算及分析的Pod或Pod集合的灾备演练数据发送给计算Node提取最接近真实的数据结果。5.根据权利要求1所述的一种基于k8s结合灾备演练故障预测及Pod调度的方法,其特征在于,所述步骤3构建马尔可夫链模型如下:P(X
(n+1)
=i|X
(n)
=j,X<...

【专利技术属性】
技术研发人员:满新宇陈世亮杨梅王震朱庭俊黄嘉伟
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1