一种数据质量监控的方法及系统技术方案

技术编号:14658531 阅读:101 留言:0更新日期:2017-02-17 00:18
本发明专利技术公开了一种数据质量监控的方法,包括:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。还有数据质量监控的系统。

【技术实现步骤摘要】

本专利技术涉及大数据处理的
,尤其涉及一种数据质量监控的方法,以及数据质量监控的系统。
技术介绍
现有的数据质量监控方案只能针对已经存在的数据,根据业务的需求,单独开发MapReduce作业,在MapReduce作业代码中实现业务监控规则,并运行该MapReduce作业扫描整份数据,最后产出数据质量情况信息。例如,中国专利申请:用于数据质量监控的系统和方法,申请号:CN201210225743.X。现有的数据质量监控技术只能针对已经产出的数据,然后单独运行MapReduce作业来扫描整份数据,最后才能拿到这份数据的数据质量情况,也就是说需要重复扫描数据,而不能在数据产出的时候就直接获取到数据的质量情况,如果需要监控数据质量的数据太多,而且集群计算压力比较大的情况下,这种方案会占用集群大量的计算资源,严重影响其他生产数据的产出。同时由于不同的数据需要开发不同的MapReduce监控作业,如果需要监控的数据比较多的情况下,需要开发很多的MapReduce作业来进行相关的监控,增加了开发工作量。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种数据质量监控的方本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610832282.html" title="一种数据质量监控的方法及系统原文来自X技术">数据质量监控的方法及系统</a>

【技术保护点】
一种数据质量监控的方法,其特征在于:该方法包括以下步骤:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。

【技术特征摘要】
1.一种数据质量监控的方法,其特征在于:该方法包括以下步骤:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。2.根据权利要求1所述的数据质量监控的方法,其特征在于:所述步骤(1)中监控规则包括:ruler1、第一列数据为空;ruler2、第二列数据加上第三列数据值不等于1;ruler3、第十列数据大于等于1000。3.根据权利要求1所述的数据质量监控的方法,其特征在于:所述步骤(2)中,调度系统根据作业类型来确定组织配置信息的方式,所述作业类型包括MapReduce作业和Hive作业,其中MapReduce作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000;其中Hive作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000。4.根据权利要求3所述的数据质量监控的方法,其特征在于:所述步骤(4)中,counter的key分别对应字符串ruler1、ruler2、ruler3,value为满足对应规则的数据量。5.根据权利要求4所述的数据质量监控的方法,其特征在于:所述步骤(4)中,如果对这些数据质量监控数据做进一步的分析或持久化,直接解析这些counter。...

【专利技术属性】
技术研发人员:何良均张翼温宗臣冯森林范卫卫李冰张书凡
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1