基于ETL规则的数据质量监控及预警系统和方法技术方案

技术编号:24168575 阅读:38 留言:0更新日期:2020-05-16 02:13
本发明专利技术公开了一种基于ETL规则的数据质量监控及预警系统和方法,系统包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、以及可视化预警报表生成模块,源数据标准化处理模块与数据仓库元数据管理模块相耦接;数据仓库元数据管理模块分别与源数据标准化处理模块和ETL规则处理模块相耦接;ETL规则处理模块分别与数据仓库元数据管理模块和可视化预警报表生成模块相耦接;可视化预警报表生成模块与ETL规则处理模块相耦接。本发明专利技术在建立数据仓库和ETL过程中监控数据质量,提高数据的易读性和准确性。

Data quality monitoring and early warning system and method based on ETL rules

【技术实现步骤摘要】
基于ETL规则的数据质量监控及预警系统和方法
本专利技术涉及计算机领域,更具体地,涉及一种基于ETL规则的数据质量监控及预警系统和方法。
技术介绍
大数据时代的到来,带给企业很多的数据资产,企业如何能在众多数据中真正的利用有效数据,来进行分析和数据挖掘,企业都会通过ETL过程建立数据仓库和数据集市,而在这个过程中,会导致很多问题,为此本专利技术主要是解决在建立数据仓库和ETL过程如何监控数据质量,提高数据的易读性,准确性;目前本领域主要存在以下问题:1、由于企业数据来自不同的业务系统,上游数据源数据出现异常,例如爬虫数据出现结构变化,爬虫失败等导致下游ETL数据错误;2、在建立数据仓库和ETL过程中元数据缺乏有效管理,导致数据的易读性很差,不能最大能力发挥元数据的功能性;3、数据表中数据质量问题,主要突出表现在以下几种:1)数据缺乏有效的主键,导致数据出现重复;2)数据不符合标准数据类型;3)数据不符合标准数据业务规则,例如数据的区间为1-100,表中出现了100以上的数据;4)数据表主要指标,例如每天的业务量不正常,例如在职人数每天大概在2000人左右,由于数据问题出现某天为100人左右等异常数据;4、企业没有有效的对数据仓库和ETL过程中进行有效的监控和预警,数据开发人员不能快速的了解目前数据的情况,数据异常得不到及时通知,引起下游相关引用该数据出现问题,给数据分析和决策人员带来错误的指导。有鉴于此,克服该现有技术所存在的缺陷是本领域亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于ETL规则的数据质量监控及预警系统和方法,使得在建立数据仓库和ETL过程中监控数据质量,提高数据的易读性和准确性。一方面,本专利技术公开了一种基于ETL规则的数据质量监控及预警系统,包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、以及可视化预警报表生成模块,其中,所述源数据标准化处理模块与所述数据仓库元数据管理模块相耦接,用于将同步到数据仓库中的源数据进行标准化处理得到标准化源数据,并将所述标准化源数据发送至所述数据仓库元数据管理模块;所述数据仓库元数据管理模块分别与所述源数据标准化处理模块和所述ETL规则处理模块相耦接,用于对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;所述ETL规则处理模块分别与所述数据仓库元数据管理模块和所述可视化预警报表生成模块相耦接,用于选取对待处理数据进行ETL处理所述的来源端和目的端,所述第一数据为所述来源端,根据业务规则和数据标准从所述第一数据中提取待处理数据,对所述待处理数据进行相应的ETL处理,去除所述第一数据中的脏数据得到所述待处理数据的处理结果,并将所述处理结果加载到所述目的端,得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;所述可视化预警报表生成模块与所述ETL规则处理模块相耦接,对所述第二数据进行可视化,突出显示异常的数据库表。另一方面,本专利技术还提供了一种基于ETL规则的数据质量监控及预警方法,包括步骤:同步源数据至数据仓库并设置预警阈值,当所述源数据在所述预警阈值内时,对所述源数据进行标准化处理得到标准化源数据;对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;选取对待处理数据进行ETL处理所述的来源端和目的端,所述第一数据为所述来源端,根据业务规则和数据标准从所述第一数据中提取待处理数据,对所述待处理数据进行相应的ETL处理,去除所述第一数据中的脏数据得到所述待处理数据的处理结果,并将所述处理结果加载到所述目的端,得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;生成可视化预警报表,对所述第二数据进行可视化,突出显示异常的数据库表。与现有技术相比,本专利技术提供的基于ETL规则的数据质量监控及预警系统和方法,至少实现了如下的有益效果:因为本专利技术采用对源数据先后经过源数据标准化处理、数据仓库元数据管理和ETL规则处理,可以提高检测质量,挺高检测效果以及检测精度,使管理者方便对目前数据资产和数据仓库对相关质量的判定,能够指导管理者和开发者对改善数据质量提供更明细的数据问题定位;能够使数据易懂易读,便于数据使用者;本专利技术可以生成可视化预警报表,突出显示异常的数据库表,方便对数据进行监控;本专利技术中将不同类型的数据源添加到一个数据仓库中进行管理,当需要ETL处理时,从已经添加的数据源中选取进行ETL处理,对于多远ETL工具来说,可以方便开发者所有数据源信息保存在数据仓库中,无需各自业务保存在各自的内部文档中,当有数据源加入是,也只需将该新的数据源添加进去即可,因此,数据开发时,无需再多个数据源的不同结构类型中进行切换,不仅减小了开发人员的工作量,而且提高了开发的效率。当然,实施本专利技术的任一产品必不特定需要同时达到以上所述的所有技术效果。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1是本专利技术提供的一种基于ETL规则的数据质量监控及预警系统结构框图;图2是本专利技术提供的一种基于ETL规则的数据质量监控及预警方法流程图。具体实施方式现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。结合图1,图1是本专利技术提供的一种基于ETL规则的数据质量监控及预警系统结构框图。图1中,基于ETL规则的数据质量监控及预警系统包括源数据标准化处理模块101、数据仓库元数据管理模块102、ETL规则处理模块103、以及可视化预警报表生成模块104。源数据标准化处理模块101与数据仓库元数据管理模块102相耦接,用于将同步到数据仓库中的源数据进行标准化处理得到标准化源数据,并将标准化源数据发送至数据仓库元数据管理模块102;根据各业务系统不本文档来自技高网
...

【技术保护点】
1.一种基于ETL规则的数据质量监控及预警系统,其特征在于,包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、以及可视化预警报表生成模块,其中,/n所述源数据标准化处理模块与所述数据仓库元数据管理模块相耦接,用于将同步到数据仓库中的源数据进行标准化处理得到标准化源数据,并将所述标准化源数据发送至所述数据仓库元数据管理模块;/n所述数据仓库元数据管理模块分别与所述源数据标准化处理模块和所述ETL规则处理模块相耦接,用于对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;/n所述ETL规则处理模块分别与所述数据仓库元数据管理模块和所述可视化预警报表生成模块相耦接,用于选取对待处理数据进行ETL处理所述的来源端和目的端,所述第一数据为所述来源端,根据业务规则和数据标准从所述第一数据中提取待处理数据,对所述待处理数据进行相应的ETL处理,去除所述第一数据中的脏数据得到所述待处理数据的处理结果,并将所述处理结果加载到所述目的端,得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;/n所述可视化预警报表生成模块与所述ETL规则处理模块相耦接,对所述第二数据进行可视化,突出显示异常的数据库表。/n...

【技术特征摘要】
1.一种基于ETL规则的数据质量监控及预警系统,其特征在于,包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、以及可视化预警报表生成模块,其中,
所述源数据标准化处理模块与所述数据仓库元数据管理模块相耦接,用于将同步到数据仓库中的源数据进行标准化处理得到标准化源数据,并将所述标准化源数据发送至所述数据仓库元数据管理模块;
所述数据仓库元数据管理模块分别与所述源数据标准化处理模块和所述ETL规则处理模块相耦接,用于对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;
所述ETL规则处理模块分别与所述数据仓库元数据管理模块和所述可视化预警报表生成模块相耦接,用于选取对待处理数据进行ETL处理所述的来源端和目的端,所述第一数据为所述来源端,根据业务规则和数据标准从所述第一数据中提取待处理数据,对所述待处理数据进行相应的ETL处理,去除所述第一数据中的脏数据得到所述待处理数据的处理结果,并将所述处理结果加载到所述目的端,得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;
所述可视化预警报表生成模块与所述ETL规则处理模块相耦接,对所述第二数据进行可视化,突出显示异常的数据库表。


2.根据权利要求1所述的基于ETL规则的数据质量监控及预警系统,其特征在于,还包括ETL处理规则设置模块,与所述ETL规则处理模块相耦接,用于接收用户设置的ETL处理规则,根据所述ETL处理规则对所述待处理数据进行相应的ETL处理,所述ETL处理规则包括根据预设的结构化查询语言SQL的处理标准设置的ETL处理规则。


3.根据权利要求1所述的基于ETL规则的数据质量监控及预警系统,其特征在于,所述ETL规则处理模块用于在收房明细数据中当收房合同中没有房间编号,则过滤掉此数据;根据身份证号计算年龄时,当身份证号不是正确的格式将其视为垃圾数据并用0替代。


4.根据权利要求1所述的基于ETL规则的数据质量监控及预警系统,其特征在于,所述源数据标准化处理模块依据数据源的类型同步数据源,所述数据源包括相关信息,所述相关信息包括数据源名称、数据源类型和数据源中数据表的...

【专利技术属性】
技术研发人员:李松前李昭陈浩高靖崔岩卢述奇陈呈张宵
申请(专利权)人:青梧桐有限责任公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1