一种数据质量监控的方法及系统技术方案

技术编号:14658531 阅读:76 留言:0更新日期:2017-02-17 00:18
本发明专利技术公开了一种数据质量监控的方法,包括:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。还有数据质量监控的系统。

【技术实现步骤摘要】

本专利技术涉及大数据处理的
,尤其涉及一种数据质量监控的方法,以及数据质量监控的系统。
技术介绍
现有的数据质量监控方案只能针对已经存在的数据,根据业务的需求,单独开发MapReduce作业,在MapReduce作业代码中实现业务监控规则,并运行该MapReduce作业扫描整份数据,最后产出数据质量情况信息。例如,中国专利申请:用于数据质量监控的系统和方法,申请号:CN201210225743.X。现有的数据质量监控技术只能针对已经产出的数据,然后单独运行MapReduce作业来扫描整份数据,最后才能拿到这份数据的数据质量情况,也就是说需要重复扫描数据,而不能在数据产出的时候就直接获取到数据的质量情况,如果需要监控数据质量的数据太多,而且集群计算压力比较大的情况下,这种方案会占用集群大量的计算资源,严重影响其他生产数据的产出。同时由于不同的数据需要开发不同的MapReduce监控作业,如果需要监控的数据比较多的情况下,需要开发很多的MapReduce作业来进行相关的监控,增加了开发工作量。
技术实现思路
为克服现有技术的缺陷,本专利技术要解决的技术问题是提供了一种数据质量监控的方法,其避免了数据重复扫描,降低了集群计算资源的使用,提高了整个集群计算资源的有效利用率,而且减少了开发工作量。本专利技术的技术方案是:这种数据质量监控的方法,该方法包括以下步骤:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。本专利技术通过配置数据质量监控规则,在数据产出的时候同时输出数据质量监控数据,避免了数据重复扫描,降低了集群计算资源的使用,提高了整个集群计算资源的有效利用率。同时监控规则是可配置的,不需要开发MapReduce监控作业,减少了开发工作量。还提供了一种数据质量监控的系统,该系统包括:配置模块,其配置来配置监控规则,数据质量监控规则借用调度的前端来实现;传递模块,其配置来监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;识别模块,其配置来计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;输出模块,在数据产出完毕时,输出模块配置来通过计数器counter的方式输出这些数据质量监控数据。附图说明图1所示为根据本专利技术的数据质量监控的方法的流程图。具体实施方式如图1所示,这种数据质量监控的方法,该方法包括以下步骤:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。本专利技术通过配置数据质量监控规则,在数据产出的时候同时输出数据质量监控数据,避免了数据重复扫描,降低了集群计算资源的使用,提高了整个集群计算资源的有效利用率。同时监控规则是可配置的,不需要开发MapReduce监控作业,减少了开发工作量。另外,所述步骤(1)中监控规则包括:ruler1、第一列数据为空;ruler2、第二列数据加上第三列数据值不等于1;ruler3、第十列数据大于等于1000。另外,所述步骤(2)中,调度系统根据作业类型来确定组织配置信息的方式,所述作业类型包括MapReduce作业和Hive作业,其中MapReduce作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000;其中Hive作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000。另外,所述步骤(4)中,counter的key分别对应字符串ruler1、ruler2、ruler3,value为满足对应规则的数据量。另外,所述步骤(4)中,如果对这些数据质量监控数据做进一步的分析或持久化,直接解析这些counter。本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本专利技术的方法相对应的,本专利技术还同时包括一种数据质量监控的系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统,该系统包括:配置模块,其配置来配置监控规则,数据质量监控规则借用调度的前端来实现;传递模块,其配置来监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;识别模块,其配置来计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;输出模块,在数据产出完毕时,输出模块配置来通过计数器counter的方式输出这些数据质量监控数据。另外,所述配置模块中监控规则包括:ruler1、第一列数据为空;ruler2、第二列数据加上第三列数据值不等于1;ruler3、第十列数据大于等于1000。另外,所述传递模块中,调度系统根据作业类型来确定组织配置信息的方式,所述作业类型包括MapReduce作业和Hive作业,其中MapReduce作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000;其中Hive作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000。另外,所述输出模块中,counter的key分别对应字符串ruler1、ruler2、ruler3,value为满足对应规则的数据量。另外,所述输出模块中,如果对这些数据质量监控数据做进一步的分析或持久化,直接解析这些counter。本专利技术的有益效果如下:1.数据质量监控规则可配置;2.计算框架自动识别监控规则;3本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201610832282.html" title="一种数据质量监控的方法及系统原文来自X技术">数据质量监控的方法及系统</a>

【技术保护点】
一种数据质量监控的方法,其特征在于:该方法包括以下步骤:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。

【技术特征摘要】
1.一种数据质量监控的方法,其特征在于:该方法包括以下步骤:(1)配置监控规则,数据质量监控规则借用调度的前端来实现;(2)传递监控规则:监控规则被调度系统以配置信息的方式传递到计算框架,计算框架通过上下文方式进一步传递这些规则信息;(3)识别监控规则:计算框架通过上下文信息,获取到这些监控规则,计算框架默认以ruler字符串开头的配置信息作为数据质量监控规则的配置,计算框架对要产出的每一行数据使用这些监控规则,并判断每一行数据是否分别满足这些监控规则,对满足的分别进行统计计数;(4)输出监控数据:数据产出完毕时,这些数据质量监控数据通过计数器counter的方式输出。2.根据权利要求1所述的数据质量监控的方法,其特征在于:所述步骤(1)中监控规则包括:ruler1、第一列数据为空;ruler2、第二列数据加上第三列数据值不等于1;ruler3、第十列数据大于等于1000。3.根据权利要求1所述的数据质量监控的方法,其特征在于:所述步骤(2)中,调度系统根据作业类型来确定组织配置信息的方式,所述作业类型包括MapReduce作业和Hive作业,其中MapReduce作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000;其中Hive作业的ruler1、第一列数据不为空;ruler2、第二列数据加上第三列数据值等于1;ruler3、第十列数据大于等于1000。4.根据权利要求3所述的数据质量监控的方法,其特征在于:所述步骤(4)中,counter的key分别对应字符串ruler1、ruler2、ruler3,value为满足对应规则的数据量。5.根据权利要求4所述的数据质量监控的方法,其特征在于:所述步骤(4)中,如果对这些数据质量监控数据做进一步的分析或持久化,直接解析这些counter。...

【专利技术属性】
技术研发人员:何良均张翼温宗臣冯森林范卫卫李冰张书凡
申请(专利权)人:北京集奥聚合科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1