一种基于数据库模式下的数据质量审计方法技术

技术编号:7629944 阅读:195 留言:0更新日期:2012-08-02 21:27
本发明专利技术公开了一种基于数据库模式下的数据质量审计方法,包括以下内容:预处理模块、采集模块、KPI处理模块、告警信息入库模块和KPI信息入库模块。本方法解决在数据抽取过程中出现的各种复杂原因而导致数据异常情况。对各个需要关注的数据进行实时监测、实现对各种异常数据的快速监测、迅速定位,精确告警,提高系统数据的可靠性、可用性与真实性。

【技术实现步骤摘要】

本专利技术涉及一种数据质量审计
,具体是指提供一种基于数据库模式下的使用规则解析器进行数据质量审计方法。
技术介绍
在海量的电力计量数据中,通过建立数据仓库或数据集市系统,实现各种数据的海量集中、运算以及数据的挖掘、预测分析等。而这些基础源数据我们通常都认为是正确无误的。但在实际过程中,我们通过分析全省计量自动化主站系统发现,各源数据在数据采集、数据上送、及最终数据中间计算等过程中,都有可能存在数据的异常与差错。比如主站计量数据由于无法采集远程终端数据造成数据缺失,或由于业务管理等原因造成系统数据的可用性及可靠性降低,而手工修改部分数据,或者一些计算规则的调整而到底数据差异坐寸ο传统的数据质量审计方法多用数据库存储过程实现,虽然能支持复杂的数据审计规则,但是对开发者的要求很高,并且代码的重用性不高。另一方面,因为大量的数据在数据库进行审计,加大了数据库的负荷,影响数据库的性能。
技术实现思路
本专利技术的目的在于提供,解决在数据抽取过程中出现的各种复杂原因而导致数据异常情况。对各个需要关注的数据进行实时监测、实现对各种异常数据的快速监测、迅速定位,精确告警,提高系统数据的可靠性、可用性与真实性。本专利技术的目的可通过以下的技术措施来实现,包括以下内容A)、预处理模块接受采集处理模块发送过来的采集请求,从生产系统抽取原始数据,对原始数据进行数据加工,并向采集处理模块返回最终的符合预处理模块与采集处理模块约定的数据交换格式数据;所述的数据加工包括按照每个KPI指标特定要求所进行的数据计算;所述KPI指标为关键性能指标,所述KPI指标特定要求包括数据类型转换。所述数据交换格式为XML交换格式。B)、采集处理模块根据各KPI指标设置的采集周期,按时间周期,向预处理模块发送采集请求,当请求结果数据返回后,对结果数据进行基本判断,并且通过消息队列向KPI 信息入库模块传送采集的KPI数据值;以及,通过消息队列向KPI处理模块传送采集的KPI 数据值;C)、KPI处理模块从消息队列中获取需要处理的由采集处理模块写入的KPI数据值,并且加载各KPI对应的规则,由KPI对象规则解析器对采集的数据值进行规则解析,判断是否存在数据质量问题;其中,如果数据异常,则将告警数据写入告警消息队列,非告警数据写入非告警数据队列中;所述KPI对应的规则包括布尔型规则、字符串型规则、区间型规则、枚举零散型规则。D)、告警信息入库模块从消息队列中获取需要告警的数据,并且将告警数据写入到数据库中;E)、KPI信息入库模块将采集处理模块采集的KPI数据值写入到数据库中。本专利技术对比现有技术,有如下优点I、实现了对整个广东电网计量自动化系统上传数据的质量检测与跟踪,对各数据实现全面的数据梳理、监察各数据差异、自动依据各规则对数据进行跟踪,并对各异常数据进行数据报警。2、提供了常态化的内控数据监管模式,通过数据质量审计对广东电网计量自动化系统发现、总结和挖掘所存在问题,不断有针对性的加强计量管理重点并优化计量相关流程,以加强计量管理能力、提高计量工作效率、改善计量工作质量。附图说明图I是本专利技术方法的数据审计逻辑实现图2是本专利技术方法中的数据审计流程示意图。具体实施例方式数据质量审计功能共分三大模块,分别是KPI指标管理、数据质量分析和告警管理。I)、KPI指标管理需要校验的数据分为基础资料数据、计量数据和文件三类。对基础资料数据需要进行关联完整性和重要属性非空校验;对计量数据需要进行明细数据和汇总计量数据突变校验,线损数据超阀值校验,汇总计量数据一致性校验,明细数据完整率校验。对文件校验是指接口文件规范性校验和接口文件装载数据规范性校验。a、创建指标在前台页面增加创建KPI指标的功能,允许用户建立数据的值范围、校验规则以及检验策略等。b、编辑指标允许对已存在的KPI指标进行编辑。C、查询指标对KPI指标分类别查询。d、删除指标删除已制定的KPI指标。2)、数据质量分析用户创建KPI指标时,定义了所需要校验的数据,数据的来源,数据值校验策略等,程序需要预先加载所有的KPI指标,然后再进行数据查询,将查询的结果按照数据值校验策略进行数据的质量分析,然后向告警管理模块输出有异常的数据的集合。a、查询数据在创建KPI指标时,通过SQL语句定义需要校验的数据,程序会在KPI指标指定的时间里执行SQL语句,进行数据库查询,然后将返回的结果输出至数据分析模块。b、分析数据接收数据查询模块输出的查询结果,对各项数据集的数据值按照KPI指标校验策略进行数据质量分析,将不合格的数据记录在非法数据集,向告警管理输出非法数据集。3)、告警管理接收数据分析模块输出的非法数据集,根据规则产生告警,提供相应的告警查询和告警处理功能;为了更方便的处理数据的质量问题,允许用户设置告警是否产生工单,对允许产生工单的告警,按照一定的策略自动产生工单,如对工单进行了处理,则相应的告警状态设置为归档。a、查询告警对产生的告警提供前台查询功能。b、处理告警对告警进行处理,用户可对告警进行“暂存”和“归档”。C、产生工单系统对告警根据工单生成规则,自动生成工单,转入工单管理平台。上述数据质量审计功能模块的数据审计过程如下A)、预处理模块接受采集处理模块发送过来的采集请求,从生产系统(或称为数据源) 抽取原始数据,对原始数据进行数据加工,并向采集处理模块返回最终的符合预处理模块与采集处理模块约定的数据交换格式(如XML交换格式)数据;数据加工包括按照每个KPI指标特定要求所进行的数据计算;KPI指标为关键性能指标(KPI,Key Performance Indicator), KPI指标特定要求包括数据类型转换。B)、采集处理模块根据各KPI指标设置的采集周期,按时间周期,向预处理模块发送采集请求,当请求结果数据返回后,对结果数据进行基本判断,并且通过消息队列向KPI 信息入库模块传送采集的KPI数据值;以及,通过消息队列向KPI处理模块传送采集的KPI 数据值;采集周期由业务人员根据各KPI的实际情况定义,比如对于线损日数据,一般采集周期设置为每天采集,如果是月数据,则设置采集周期为月。KPI是为了达到实现数据审计的目标而根据业务实际情况而量化、设定的各种考核指标。如为了实现对综合线损率的质量审计,可以定义KPI,名称为综合线损率环比率, 以实现对综合线损率数据环比。C)、KPI处理模块从消息队列中获取需要处理的由采集处理模块写入的KPI数据值,并且加载各KPI对应的规则,由KPI对象规则解析器对采集的数据值进行规则解析, 判断是否存在数据质量问题;其中,如果数据异常,则将告警数据写入告警消息队列,非告警数据写入非告警数据队列中;KPI对应的规则包括布尔型规则、字符串型规则、区间型规则、枚举零散型规则。D)、告警信息入库模块从消息队列中获取需要告警的数据,并且将告警数据写入到数据库中,以方便前台呈现,便于客户追踪、发现数据质量问题;Ε)、ΚΡΙ信息入库模块将采集处理模块采集的KPI数据值写入到数据库中。对全省各地市计量自动化系统的数据进行质量审计与监管,提高了全省计量自动化系统数据的可靠性、可用性。通过数据质量审计系统的建设,加强了计量管理能力、提高了计量工作效率、改善了计量工作质量,进而本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:杨劲锋陈锐民肖勇孙卫明党三磊阙华坤刘健刘明王祖祥
申请(专利权)人:广东电网公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术