一种基于异构计算机体系的大数据监管系统及方法技术方案

技术编号:39675581 阅读:4 留言:0更新日期:2023-12-11 18:41
本发明专利技术涉及大数据监管技术领域,具体为一种基于异构计算机体系的大数据监管系统及方法,包括处理流程获取模块

【技术实现步骤摘要】
一种基于异构计算机体系的大数据监管系统及方法


[0001]本专利技术涉及大数据监管
,具体为一种基于异构计算机体系的大数据监管系统及方法


技术介绍

[0002]多源异构数据的实时处理分析架构中最为复杂和难以设计的是流数据处理环节,在现有技术中常采用
Flink
实现流数据的处理,且方法是丰富多样的,可能存在的问题也是多种多样的;为了减少问题出现的概率,现有技术提出了利用设置检查点重启策略维持
Flink
稳定高效运行的优化解决方案;避免了由于各种原因,
Flink
流数据处理任务可能会中断的情况;实现了因故障中断的任务的自动重启,保证系统的鲁棒性,需要配置检查点重启策略

其原理是定期对
Flink
任务进行快照,当任务由于故障而中断时,如果配置了重启策略,程序将从最新的快照位置恢复

[0003]但是在对数据流进行处理分析过程中,不同的快照间隔时长反应出来的实际处理情况不尽相同,所以如何在利用检查点重启策略的基础上合理配置快照间隔时长以提高故障处理的效率以及数据处理的稳定性是需要更进一步研究探索的


技术实现思路

[0004]本专利技术的目的在于提供一种基于异构计算机体系的大数据监管系统及方法,以解决上述
技术介绍
中提出的问题

[0005]为了解决上述技术问题,本专利技术提供如下技术方案:一种基于异构计算机体系的大数据监管方法,包括以下分析步骤:
[0006]步骤
S1
:提取基于
Kappa
架构的多源异构数据历史部分处理流程,部分处理流程是指利用服务端数据处理管道接收多源异构数据并发送到消息队列,再通过
Flink
实时流计算引擎对数据流进行处理,最后将
Flink
实时流计算引擎输出的数据流进行存储的过程;对数据流进行处理是指对消息队列中的多源异构数据进行抽取

转换和加载;标记
Flink
实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;
[0007]步骤
S2
:基于故障数据库,分析故障类型对应类型事件集合的重点故障事件,并输出
Flink
实时流计算引擎历史记录涉及故障类型最多的一级故障事件;
[0008]步骤
S3
:提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;
[0009]步骤
S4
:获取
Flink
实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,当实时快照间隔时长满足一级故障事件的预警模型时,传输一级预警信号;当实时快照间隔时长不满足一级故障预警事件的预警模型且故障数据库实时记录故障事件时,分析每一故障类型对应的最佳快照周期;
[0010]步骤
S5
:基于最佳快照周期,结合同一消息队列记录的历史数据流和实时快照周期,判断
Flink
实时流计算引擎是否需要实时传输二级预警信号

[0011]进一步的,步骤
S1
中标记
Flink
实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中,包括以下分析步骤:
[0012]故障事件是指
Flink
实时流计算引擎在对数据流处理的时长大于预设时长阈值对应的事件;
[0013]故障事件记录故障关联内容,故障关联内容包括
Flink
实时流计算引擎在对数据流处理时插入屏障的位置和快照记录对应数据流处理的快照间隔时长,屏障把数据流分为两部分,一部分是实时快照所包含的数据,另一部分是下一快照所包含的数据;每个屏障携带快照的
id
;快照是指对系统当前运行状态的存储,以便在系统检测存在故障事件时恢复之前某一个时间点的状态信息,从而继续执行处理;
[0014]以故障事件记录的数据流插入屏障后的开始快照前

开始快照时和屏障未对齐时来划分故障类型,开始快照是指数据流下游的算子接收到屏障时进行快照;屏障对齐是指同一算子对多个屏障进行对齐的过程;
[0015]将相同故障类型的故障事件存储至一类型事件集合中;且每一类型事件集合记载的每一故障事件对应的快照间隔时长不同,相同快照间隔时长的故障事件只记录存储任一故障事件为特征事件

[0016]进一步的,步骤
S2
包括以下分析步骤:
[0017]提取每一类型事件集合中每一故障事件的平均处理时长
T
,标记最大值
Tmax
对应的故障事件为类型事件集合中的重点故障事件;处理时长是指故障发生时刻起检查点重启策略的运行时长;
[0018]计算每一类型事件集合中重点故障事件的发生率
Y

Y

V/U
,其中
V
表示重点故障事件在所有类型事件集合中记录的次数,
U
表示类型事件集合的总个数;
[0019]输出所有类型事件集合中发生率最大值
Ymax
对应的重点故障事件为一级故障事件

[0020]分析一级故障事件表明在不同类型的故障中此类故障事件存在的频率较高,则可以说明一级故障事件对应的快照间隔时长对数据流的处理复杂程度较高,且故障率较高

分析快照间隔时长是为了选取在对数据流处理过程中较为稳定

快速有效的快照方式

[0021]进一步的,步骤
S3
包括:
[0022]将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照快照间隔时长的数值进行由大到小的排序,生成第一事件序列;
[0023]将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照对应平均处理时长的数值进行由大到小的排序,生成第二事件序列;
[0024]若第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为正相关;若倒序后的第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为负相关;否则,输出故障关联内容与平均处理时长的关联关系为不相关;
[0025]当关联关系为正相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最大值为目标值;当关联关系为负相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最小值为目标值;
[0026]建立一级故障事件的预警模型输出预警差值
Q

Q

|W1‑
W2|

W本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于异构计算机体系的大数据监管方法,其特征在于,包括以下分析步骤:步骤
S1
:提取基于
Kappa
架构的多源异构数据历史部分处理流程,所述部分处理流程是指利用服务端数据处理管道接收多源异构数据并发送到消息队列,再通过
Flink
实时流计算引擎对数据流进行处理,最后将
Flink
实时流计算引擎输出的数据流进行存储的过程;所述对数据流进行处理是指对消息队列中的多源异构数据进行抽取

转换和加载;标记
Flink
实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中;步骤
S2
:基于故障数据库,分析故障类型对应类型事件集合的重点故障事件,并输出
Flink
实时流计算引擎历史记录涉及故障类型最多的一级故障事件;步骤
S3
:提取一级故障事件和各故障类型对应类型事件集合的故障关联内容,分析故障关联内容对应的关联关系;基于关联关系,分析一级故障事件的预警模型;步骤
S4
:获取
Flink
实时流计算引擎对数据流进行处理时设定的实时快照间隔时长,当实时快照间隔时长满足一级故障事件的预警模型时,传输一级预警信号;当实时快照间隔时长不满足一级故障预警事件的预警模型且故障数据库实时记录故障事件时,分析每一故障类型对应的最佳快照周期;步骤
S5
:基于最佳快照周期,结合同一消息队列记录的历史数据流和实时快照周期,判断
Flink
实时流计算引擎是否需要实时传输二级预警信号
。2.
根据权利要求1所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤
S1
中标记
Flink
实时流计算引擎运行过程中的故障事件并存储故障事件记录的故障关联内容于故障数据库中,包括以下分析步骤:所述故障事件是指
Flink
实时流计算引擎在对数据流处理的时长大于预设时长阈值对应的事件;所述故障事件记录故障关联内容,所述故障关联内容包括
Flink
实时流计算引擎在对数据流处理时插入屏障的位置和快照记录对应数据流处理的快照间隔时长,所述屏障把数据流分为两部分,一部分是实时快照所包含的数据,另一部分是下一快照所包含的数据;每个屏障携带快照的
id
;所述快照是指对系统当前运行状态的存储,以便在系统检测存在故障事件时恢复之前某一个时间点的状态信息,从而继续执行处理;以故障事件记录的数据流插入屏障后的开始快照前

开始快照时和屏障未对齐时来划分故障类型,所述开始快照是指数据流下游的算子接收到屏障时进行快照;所述屏障对齐是指同一算子对多个屏障进行对齐的过程;将相同故障类型的故障事件存储至一类型事件集合中;且每一类型事件集合记载的每一故障事件对应的快照间隔时长不同,相同快照间隔时长的故障事件只记录存储任一故障事件为特征事件
。3.
根据权利要求2所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤
S2
包括以下分析步骤:提取每一类型事件集合中每一故障事件的平均处理时长
T
,标记最大值
Tmax
对应的故障事件为所述类型事件集合中的重点故障事件;所述处理时长是指故障发生时刻起检查点重启策略的运行时长;计算每一类型事件集合中重点故障事件的发生率
Y

Y

V/U
,其中
V
表示重点故障事件
在所有类型事件集合中记录的次数,
U
表示类型事件集合的总个数;输出所有类型事件集合中发生率最大值
Ymax
对应的重点故障事件为一级故障事件
。4.
根据权利要求1所述的一种基于异构计算机体系的大数据监管方法,其特征在于:所述步骤
S3
包括:将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照快照间隔时长的数值进行由大到小的排序,生成第一事件序列;将一级故障事件和各故障类型对应类型事件集合的所有故障事件按照对应平均处理时长的数值进行由大到小的排序,生成第二事件序列;若第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为正相关;若倒序后的第一事件序列与第二事件序列完全相同,则输出故障关联内容与平均处理时长的关联关系为负相关;否则,输出故障关联内容与平均处理时长的关联关系为不相关;当关联关系为正相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最大值为目标值;当关联关系为负相关时,提取除去一级故障事件对应的快照间隔时长后剩余故障事件对应快照间隔时长的最小值为目标值;建立一级故障事件的预警模型输出预警差值
Q

Q

|W1‑
W2|
...

【专利技术属性】
技术研发人员:梅碧峰李冬冬翁荣建张丽青
申请(专利权)人:上海轴芯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1