基于数据仓库及ETL的数据质量监控及预警方法和系统技术方案

技术编号:24168791 阅读:15 留言:0更新日期:2020-05-16 02:16
本发明专利技术公开了一种基于数据仓库及ETL的数据质量监控及预警方法和系统,方法包括步骤:同步源数据至数据仓库并设置预警阈值,当所述源数据在所述预警阈值内时,对所述源数据进行标准化处理得到标准化源数据;对标准化源数据进行元数据管理得到第一数据;根据业务规则和数据标准去除第一数据中的脏数据得到第二数据;根据数据质量体系规则对第二数据进行处理得到第三数据;生成可视化预警报表,对第三数据进行可视化,突出显示异常的数据库表。本发明专利技术能够在建立数据仓库和ETL过程进行监控数据质量,提高数据的易读性,准确性。

Data quality monitoring and early warning method and system based on data warehouse and ETL

【技术实现步骤摘要】
基于数据仓库及ETL的数据质量监控及预警方法和系统
本专利技术涉及计算机领域,更具体地,涉及一种基于数据仓库及ETL的数据质量监控及预警方法和系统。
技术介绍
大数据时代的到来,带给企业很多的数据资产,企业需要在众多数据中利用有效数据来进行分析和数据挖掘,而在这个过程中,会导致很多问题。目前本领域主要存在以下问题:1、由于企业数据来自不同的业务系统,上游数据源数据出现异常,例如爬虫数据出现结构变化,爬虫失败等导致下游ETL数据错误;2、在建立数据仓库和ETL过程中元数据缺乏有效管理,导致数据的易读性很差,不能最大能力发挥元数据的功能性;3、数据表中数据质量问题,主要突出表现在以下几种:1)数据缺乏有效的主键,导致数据出现重复;2)数据不符合标准数据类型;3)数据不符合标准数据业务规则,例如数据的区间为1-100,表中出现了100以上的数据;4)数据表主要指标,例如每天的业务量不正常,例如在职人数每天大概在2000人左右,由于数据问题出现某天为100人左右等异常数据;4、企业没有有效的对数据仓库和ETL过程中进行有效的监控和预警,数据开发人员不能快速的了解目前数据的情况,数据异常得不到及时通知,引起下游相关引用该数据出现问题,给数据分析和决策人员带来错误的指导。有鉴于此,克服该现有技术所存在的缺陷是本领域亟待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于数据仓库及ETL的数据质量监控及预警方法和系统,使得在建立数据仓库和ETL过程进行监控数据质量,提高数据的易读性,准确性。一方面本专利技术提供了一种基于数据仓库及ETL的数据质量监控及预警方法,包括步骤:同步源数据至数据仓库并设置预警阈值,当所述源数据在所述预警阈值内时,对所述源数据进行标准化处理得到标准化源数据;对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;根据业务规则和数据标准去除所述第一数据中的脏数据得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;根据数据质量体系规则对所述第二数据进行处理得到第三数据;生成可视化预警报表,对所述第三数据进行可视化,突出显示异常的数据库表。基于同一专利技术思想,本专利技术还提供了一种基于数据仓库及ETL的数据质量监控及预警系统,包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、数据质量体系规则验证模块、以及可视化预警报表生成模块,其中,所述源数据标准化处理模块与所述数据仓库元数据管理模块相耦接,用于将同步到数据仓库中的源数据进行标准化处理得到标准化源数据,并将所述标准化源数据发送至所述数据仓库元数据管理模块;所述数据仓库元数据管理模块分别与所述源数据标准化处理模块和所述ETL规则处理模块相耦接,用于对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;所述ETL规则处理模块分别与所述数据仓库元数据管理模块和所述数据质量体系规则验证模块相耦接,用于根据业务规则和数据标准去除所述第一数据中的脏数据得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;所述数据质量体系规则验证模块分别与所述ETL规则处理模块和所述可视化预警报表生成模块相耦接,用于根据数据质量体系规则对所述第二数据进行处理得到第三数据;所述可视化预警报表生成模块与所述数据质量体系规则验证模块相耦接,对所述第三数据进行可视化,突出显示异常的数据库表。与现有技术相比,本专利技术提供的基于数据仓库及ETL的数据质量监控及预警方法和系统,至少实现了如下的有益效果:本专利技术能够在建立数据仓库和ETL过程进行监控数据质量,提高数据的易读性,准确性;因为本专利技术采用对源数据先后经过源数据标准化处理、数据仓库元数据管理、ETL规则处理以及数据质量体系规则验证,可以提高检测质量,挺高检测效果以及检测精度,使管理者方便对目前数据资产和数据仓库对相关质量的判定,能够指导管理者和开发者对改善数据质量提供更明细的数据问题定位;能够使数据易懂易读,便于数据使用者;本专利技术可以生成可视化预警报表,突出显示异常的数据库表,方便对数据进行监控。当然,实施本专利技术的任一产品必不特定需要同时达到以上所述的所有技术效果。通过以下参照附图对本专利技术的示例性实施例的详细描述,本专利技术的其它特征及其优点将会变得清楚。附图说明被结合在说明书中并构成说明书的一部分的附图示出了本专利技术的实施例,并且连同其说明一起用于解释本专利技术的原理。图1是本专利技术提供的一种基于数据仓库及ETL的数据质量监控及预警方法流程图;图2是本专利技术提供的一种基于数据仓库及ETL的数据质量监控及预警系统结构框图。具体实施方式现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。结合图1,图1是本专利技术提供的一种基于数据仓库及ETL的数据质量监控及预警方法流程图。图1中的基于数据仓库及ETL的数据质量监控及预警方法包括以下步骤:S1:同步源数据至数据仓库并设置预警阈值,当源数据在预警阈值内时,对源数据进行标准化处理得到标准化源数据;根据各业务系统不同,在制定数据传输过程中加入预警判断;例如当爬虫系统异常时,根据业务人员制定的数据量标准,如低于某个最小值,系统根据条件再决定是否进行下一步;S2:对标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;在海量报表中查询某些表或者相关字段,由于开发人员没有维护好元数据,导致数据使用人员难以发现自己业务对应相关数据表,及相关字段的含义;对此在本预警系统中,对各模块相关元数据的统计可视化,例如把业务系统中各库通过元数据统计出哪些表、哪些字段是没有业务描述的,通过监控预警可视化促进开发和业务相关人员完善这些数据指标,使数据更易读易懂。S3:根据业务规则和数据标准去除第一数据中的脏数据得到第二数据,脏数据是指不在给定的范围内或本文档来自技高网...

【技术保护点】
1.一种基于数据仓库及ETL的数据质量监控及预警方法,其特征在于,包括步骤:/n同步源数据至数据仓库并设置预警阈值,当所述源数据在所述预警阈值内时,对所述源数据进行标准化处理得到标准化源数据;/n对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;/n根据业务规则和数据标准去除所述第一数据中的脏数据得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;/n根据数据质量体系规则对所述第二数据进行处理得到第三数据;/n生成可视化预警报表,对所述第三数据进行可视化,突出显示异常的数据库表。/n

【技术特征摘要】
1.一种基于数据仓库及ETL的数据质量监控及预警方法,其特征在于,包括步骤:
同步源数据至数据仓库并设置预警阈值,当所述源数据在所述预警阈值内时,对所述源数据进行标准化处理得到标准化源数据;
对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;
根据业务规则和数据标准去除所述第一数据中的脏数据得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;
根据数据质量体系规则对所述第二数据进行处理得到第三数据;
生成可视化预警报表,对所述第三数据进行可视化,突出显示异常的数据库表。


2.根据权利要求1所述的基于数据仓库及ETL的数据质量监控及预警方法,其特征在于,所述ETL规则处理包括:在收房明细数据中当收房合同中没有房间编号,则过滤掉此数据;根据身份证号计算年龄时,当身份证号不是正确的格式将其视为垃圾数据并用0替代。


3.根据权利要求1所述的基于数据仓库及ETL的数据质量监控及预警方法,其特征在于,所述数据质量体系规则验证,根据数据质量体系规则对所述第二数据进行处理得到第三数据包括:
获取所述第二数据的数据类型和/或属性;
根据所述第二数据的数据类型和/或属性配置检测规则组合,其中所述配置检测规则组合至少包括一个检测规则;
根据所述规则组合对所述第二数据进行质量检测得到第三数据发送至目的端。


4.根据权利要求3所述的基于数据仓库及ETL的数据质量监控及预警方法,其特征在于,所述检测规则组合包括:主键检查、代码标准检查和业务规则检查。


5.根据权利要求1所述的基于数据仓库及ETL的数据质量监控及预警方法,其特征在于,还包括在配置表中设置人员管理,将所述可视化预警报表中的异常的数据库表发送至所述人员。


6.一种基于数据仓库及ETL的数据质量监控及预警系统,其特征在于,包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、数据质量体系规则验证模块、以及可视化预警报表生成模块,其中,
所述源数据标准化处理模块与所述数据仓库元数据管理模块相耦接...

【专利技术属性】
技术研发人员:李松前李昭陈浩高靖崔岩卢述奇陈呈张宵
申请(专利权)人:青梧桐有限责任公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1