一种ICEBERG数据湖的数据质量监测方法和系统技术方案

技术编号:36959919 阅读:24 留言:0更新日期:2023-03-22 19:20
本发明专利技术公开了一种ICEBERG数据湖的数据质量监测方法和系统,所述方法采用异常数据日志数据、数据量核查等方式监测数据湖系统中的数据质量,所述系统数据处理架构分为四层,分别是数据采集层、日志存储层、数据质量分析层与数据质量展示层。本发明专利技术通过离线和实时方式,能够帮助管理员及时发现与解决数据质量问题;本发明专利技术数据采用日志获取的方式进行监测,对运行系统的侵入性进一步降低,有利于全面监测数据湖所有系统,提高数据质量;本发明专利技术监控模块之间相互独立,可以全面监控数据湖系统质量信息,也可以根据现场情况单独选择需要模块监控部署。部署。部署。

【技术实现步骤摘要】
一种ICEBERG数据湖的数据质量监测方法和系统


[0001]本专利技术涉及电网数据管理,特别是一种ICEBERG数据湖的数据质量监测方法和系统。

技术介绍

[0002]随着数据湖路线的不断更新,基于ICEBERG数据湖方式存储电网系统运行中的数据的路线已经验证通过并实施运行,同时数据湖中存储的数据也迎来爆发式的增长,对数据的质量监测是一个新的挑战。为解决数据丢失、数据失真等问题,需要监测数据湖的整个运行流程,通过对原始数据、运行日志、运行结果等数据分析及时发现与解决数据质量问题。

技术实现思路

[0003]专利技术目的:本专利技术的目的是提供一种ICEBERG数据湖的数据质量监测方法和系统,从而监测数据在ICEBERG数据湖中从抽取到最后结果展示的整个运行流程,及时发现与解决数据质量问题。
[0004]技术方案:本专利技术所述的一种ICEBERG数据湖的数据质量监测方法,包括以下步骤:
[0005](1)针对入库场景信息收集,通过FLINK程序获取KAFKA数据时,实时记录KAFKA offset,并打印到日志本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种ICEBERG数据湖的数据质量监测方法,其特征在于,包括以下步骤:(1)针对入库场景信息收集,通过FLINK程序获取KAFKA数据时,实时记录KAFKA offset,并打印到日志,由质量监测的日志采集系统进行采集;(2)针对实时计算场景信息收集,通过FLINK程序解析数据入库到各层时,通过其side out方法,将字段解析出错、数据格式不符合数据写入到质量监测的日志采集系统中;(3)针对离线计算场景信息收集,通过质量监测的日志采集系统获取其每次离线任务日志,过滤异常信息、数据量信息。通过FLINK离线计算获取数据湖中的数据量;(4)针对异常数据监测场景,采用FLINK实时计算方式,处理从实时和离线运行场景中产生的日志数据,过滤获取异常数据;(5)针对数据量监测场景,采用FLINK离线计算处理比较入库场景的接收数据量与数据湖中数据量加异常数据量的差异;(6)计算处理结果直接写入MYSQL数据库;(7)通过数据质量展示系统展示数据质量,并将异常信息及时通过邮件和短信方式通知管理员。2.一种ICEBERG数据湖的数据质量监测系统,该系统采用了如权利要求1所述的一种ICEBERG数据湖的数据质量监测方法,其特征在于,所述系统的数据处理架构分为四层,分别是数据采集层、日志存储层、数据质量分析层与数据质量展示层,具体为:数据采集层:功能为采集所述系统进行数据质量检测时所需的数据,所述数据的来源主要有四种,一是FLINK实时解析数据时出现解析失败、格式不正确时通过FLINK的侧输出流输...

【专利技术属性】
技术研发人员:张见豪李贤慧李芾玮张超陈南明富鹏彭晨辉王鸣一
申请(专利权)人:南瑞集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1