一种基于马尔可夫模型的数据中台运行故障预测方法技术

技术编号:36022104 阅读:59 留言:0更新日期:2022-12-21 10:17
本发明专利技术涉及一种基于马尔可夫模型的数据中台运行故障预测方法,包括步骤A:量化运行状态;步骤B:故障诊断模型制定;步骤C:预警模式优化,提出“业务故障现象”、“组件故障现象”等六层系统运行工状态量化评价体系;然后基于上述状态指标建立故障诊断模型,并借助隐马尔可夫进行模型优化,辅助数据中台运维人员快速定位故障,提升运维效率;最后设计并实现在线故障诊断定位系统。以天津电力数据中台六层运行状态量化评价体系和主动运维模式为基础,一方面,可以快速定位天津电力数据中台故障排查主体;另一方面,基于故障诊断模型和主动运维模型,可以做到天津电力数据中台运行风险主动预警和故障快速处理。警和故障快速处理。警和故障快速处理。

【技术实现步骤摘要】
一种基于马尔可夫模型的数据中台运行故障预测方法


[0001]本专利技术属于数据分析领域,涉及数据中台运行故障预测技术,尤其是一种基于马尔可夫模型的数据中台运行故障预测方法。

技术介绍

[0002]数据中台是一种战略选择和组织形式,依据企业特有的业务模式和组织架构,将有形的产品和实施方法作为支撑,进而构建一套不断把数据变成资产并服务于业务的机制。数据中台一般具备数据采集整合、数据提纯加工、数据服务可视化和数据价值变现四个能力。
[0003]当前数据中台运维工作存在一系列困难。主要体现在:

系统架构复杂导致日常的巡检繁琐,同时工作量大并且系统风险具有隐蔽性,不易被发现;

与传统成熟的软件服务相比,数据中台故障诊断困难,对运维人员的经验依赖严重。
[0004]由于数据中台无论在系统架构还是物理部署上均和传统的B/S架构信息系统有较大区别,这就要求运维人员不仅需要对数据中台主机层面、中间件和应用系统等传统运维体系内容熟悉,还需要学习和了解数据中台各类新型组件的巡检和使用,同时,由于对数据中台的运维经验储备尚不充足,对于数据中台各类故障的处理效率较低。当前在数据中台运行故障提升方面的工作主要还是依赖具有一定经验的运维人员,缺少行之有效的自动化方法。
[0005]针对上述数据中台运维的痛点问题,本专利技术提出了一种基于马尔可夫模型的数据中台运行故障预测方法。马尔可夫模型是一个双重随机过程,该过程分为马尔可夫链和观测过程,在第一个随机过程中,马尔可夫链用于描述不同状态之间的转化过程,该随机过程一般由转移概率矩阵来描述;观测过程作为马尔可夫模型的第二个随机过程,主要用来描述状态序列和观测序列之间的关系,该随机过程由观察值概率矩阵描述。本专利技术方法基于马尔可夫模型对数据中台运行进行故障预测,该方法不仅可以对数据中台进行快速故障诊断,同时还可以对系统状态主动预警。

技术实现思路

[0006]本专利技术为了解决数据中台运维工作中巡检繁琐、工作量大、风险不易被发现、数据中台故障诊断困难、对运维人员经验依赖严重等一系列问题,提出了一种基于马尔可夫模型的数据中台运行故障预测方法,该方法不仅可以对数据中台进行快速故障诊断,同时还可以对系统状态主动预警。
[0007]本专利技术解决其技术问题是采取以下技术方案实现的:
[0008]一种基于马尔可夫模型的数据中台运行故障预测方法,包括如下方法步骤:
[0009]步骤A:量化运行状态
[0010]结合电网营销、设备、人资和运检相关业务需求和数据中台应用组件架构体系两方面,完成数据中台各类故障、组件状态和故障影响范围的梳理和基础数据采集,利用数学
模型完成数据分层、分类和关系梳理,构建数据中台运行的量化评价体系,利用量化数据客观地对系统潜在风险进行提示,衡量数据中台健康状态,所述的数据中台运行的量化评价体系包括“业务故障现象”、“组件故障现象”、“关键运行指标”、“关键运行状态”、“运维对象”和“影响范围”六层数据中台运行状态量化评价体系;
[0011]步骤B:故障诊断模型制定
[0012]为快速定位数据中台各类故障,利用评价体系数据和组件关联关系,构建故障诊断概率数学模型,并基于马尔可夫链进行概率验证和优化,提升故障诊断准确度,在数据中台发生故障后,输入故障数据可快速筛查排查组件顺序,为恢复数据服务提升效率,根据六层状态评价体系模型中的关联关系,以及电力数据中台运维积累数据,定义各层关联间的概率,由此,在发生了第一层业务故障后,可以根据各层关联走向和概率分布,快速筛查第五层运维对象引发故障的排查顺序,同时可以同步预警第六层对应影响范围,模型算法如下:
[0013][0014]式中,
[0015]代表运维对象y
j
发生运行问题导致业务故障x
i
发生的概率;
[0016]代表组件故障c
n
发生导致业务故障x
i
发生的概率;
[0017]代表指标t
k
异常导致组件故障c
n
发生的概率;
[0018]代表状态S
m
异常导致指标t
k
异常的概率;
[0019]代表运维对象y
j
发生运行问题导致状态S
m
发生异常的概率,
[0020]X为业务故障,C为组件故障Component Fault,T为指标Target,S为状态Status,Y 为运维对象,业务故障、组件故障、关键运行指标、关键运行状态和运维对象的个数分别为 m、n、k、l、r,i=1

m,N=1

n,K=1

k,L=1

l,j=1

r,模型中,各节点的关联关系概率均为运维数据积累,为提升模型准确度,引入马尔可夫模型对随机状态转化概率进行优化;
[0021]步骤C:预警模式优化
[0022]基于数据中台评价体系和故障诊断模型,摒弃单一阈值预警运维模式,通过算法动态判断系统异常状态,采用关联动态阈值替代简单阈值设定报警门限,降低数据中台运行风险,基于隐马尔可夫的数据中台故障诊断模型,提出了数据中台主动运维模式,分别从主动预警、主动学习和主动反馈三方面构建。
[0023]而且,所述的第一层业务故障现象,定义电网各类业务需求和各类业务事故,本层状态为数据中台用户最为直观感受状态,为数据中台运营运维起点;第二层组件故障现象,定义电力数据中台各组件常见故障,本层各类故障的发生同步会引起第一层的业务故障,本状态层是数据中台运维人员的平台运维的起点;第三层关键组件指标,定义电力数据中台各组件关键运行指标参数,本层的指标异常会引起第二层组件故障的发生,本状态层是日常巡检和故障诊断的关键层;第四层关键组件状态值,定义电力数据中台各底层组件的运行参数,本层状态信息影响着第三层组件指标的运行情况,本层的状态异常是上层各类运行故障的根本原因;第五层运维对象,定义电力数据中台各组件的底层运维主体,本层是数据中台底座的基础;第六层影响范围,和第一层业务含义相同,但是还未发生的业务故
障,是第五层运维对象发生异常后可能引发的业务故障,该层是主动运维提前干预的业务范围。
[0024]而且,所述的电力诊断模型优化过程从两方面出发,一是根据模型预测验证回馈对原模型中的关联关系间基础概率进行迭代;二是基于隐马尔可夫链对诊断模型进行验证和概率优化,当利用马尔可夫模型进行电力数据中台故障预测时,首先需要选择六层状态评价体系中一条故障路径,该路径中第五层运维对象也就是故障的真实原因主体可定义为故障i,随后选取任意一条路径n作为研究对象,计算线路n发生初始故障的概率P,在经过一系列的条件判断之后,计算线路n的综合状态转移概率,随后,将该计算结果代入马尔可夫链的预测模型中,计算线路故障概率,通过计算进行比较,选出故障概率值最大的路径作为当前路径的下一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:包括如下方法步骤:步骤A:量化运行状态结合电网营销、设备、人资和运检相关业务需求和数据中台应用组件架构体系两方面,完成数据中台各类故障、组件状态和故障影响范围的梳理和基础数据采集,利用数学模型完成数据分层、分类和关系梳理,构建数据中台运行的量化评价体系,利用量化数据客观地对系统潜在风险进行提示,衡量数据中台健康状态,所述的数据中台运行的量化评价体系包括“业务故障现象”、“组件故障现象”、“关键运行指标”、“关键运行状态”、“运维对象”和“影响范围”六层数据中台运行状态量化评价体系;步骤B:故障诊断模型制定为快速定位数据中台各类故障,利用评价体系数据和组件关联关系,构建故障诊断概率数学模型,并基于马尔可夫链进行概率验证和优化,提升故障诊断准确度,在数据中台发生故障后,输入故障数据可快速筛查排查组件顺序,为恢复数据服务提升效率,根据六层状态评价体系模型中的关联关系,以及电力数据中台运维积累数据,定义各层关联间的概率,由此,在发生了第一层业务故障后,可以根据各层关联走向和概率分布,快速筛查第五层运维对象引发故障的排查顺序,同时可以同步预警第六层对应影响范围,模型算法如下:式中,代表运维对象y
j
发生运行问题导致业务故障x
i
发生的概率;代表组件故障c
n
发生导致业务故障xi发生的概率;代表指标t
k
异常导致组件故障c
n
发生的概率;代表状态S
m
异常导致指标t
k
异常的概率;代表运维对象y
j
发生运行问题导致状态S
m
发生异常的概率,X为业务故障,C为组件故障Component Fault,T为指标Target,S为状态Status,Y为运维对象,业务故障、组件故障、关键运行指标、关键运行状态和运维对象的个数分别为m、n、k、l、r,i=1

m,N=1

n,K=1

k,L=1

l,j=1

r,模型中,各节点的关联关系概率均为运维数据积累,为提升模型准确度,引入马尔可夫模型对随机状态转化概率进行优化;步骤C:预警模式优化基于数据中台评价体系和故障诊断模型,摒弃单一阈值预警运维模式,通过算法动态判断系统异常状态,采用关联动态阈值替代简单阈值设定报警门限,降低数据中台运行风险,基于隐马尔可夫的数据中台故障诊断模型,提出了数据中台主动运维模式,分别从主动预警、主动学习和主动反馈三方面构建。2.根据权利要求1所述的一种基于马尔可夫模型的数据中台运行故障预测方法,其特征在于:所述的第一层业务故障现象,定义电网各类业务需求和各类业务事故,本层状态为数据中台用...

【专利技术属性】
技术研发人员:张倩宜包永迪郝美薇江黛茹张旭颜阳杨丹丹付嘉鑫胡博张驰申琳琳
申请(专利权)人:国家电网有限公司国网天津市电力公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1