【技术实现步骤摘要】
基于ETL规则的数据质量监控及预警系统和方法
本专利技术涉及计算机领域,更具体地,涉及一种基于ETL规则的数据质量监控及预警系统和方法。
技术介绍
大数据时代的到来,带给企业很多的数据资产,企业如何能在众多数据中真正的利用有效数据,来进行分析和数据挖掘,企业都会通过ETL过程建立数据仓库和数据集市,而在这个过程中,会导致很多问题,为此本专利技术主要是解决在建立数据仓库和ETL过程如何监控数据质量,提高数据的易读性,准确性;目前本领域主要存在以下问题:1、由于企业数据来自不同的业务系统,上游数据源数据出现异常,例如爬虫数据出现结构变化,爬虫失败等导致下游ETL数据错误;2、在建立数据仓库和ETL过程中元数据缺乏有效管理,导致数据的易读性很差,不能最大能力发挥元数据的功能性;3、数据表中数据质量问题,主要突出表现在以下几种:1)数据缺乏有效的主键,导致数据出现重复;2)数据不符合标准数据类型;3)数据不符合标准数据业务规则,例如数据的区间为1-100,表中出现了100以上的数据;4)数据表主要指标,例如每天的业务量不正常,例如在职人数每天大概在2000人左右,由于数据问题出现某天为100人左右等异常数据;4、企业没有有效的对数据仓库和ETL过程中进行有效的监控和预警,数据开发人员不能快速的了解目前数据的情况,数据异常得不到及时通知,引起下游相关引用该数据出现问题,给数据分析和决策人员带来错误的指导。有鉴于此,克服该现有技术所存在的缺陷是本领域亟待解决 ...
【技术保护点】
1.一种基于ETL规则的数据质量监控及预警系统,其特征在于,包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、以及可视化预警报表生成模块,其中,/n所述源数据标准化处理模块与所述数据仓库元数据管理模块相耦接,用于将同步到数据仓库中的源数据进行标准化处理得到标准化源数据,并将所述标准化源数据发送至所述数据仓库元数据管理模块;/n所述数据仓库元数据管理模块分别与所述源数据标准化处理模块和所述ETL规则处理模块相耦接,用于对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;/n所述ETL规则处理模块分别与所述数据仓库元数据管理模块和所述可视化预警报表生成模块相耦接,用于选取对待处理数据进行ETL处理所述的来源端和目的端,所述第一数据为所述来源端,根据业务规则和数据标准从所述第一数据中提取待处理数据,对所述待处理数据进行相应的ETL处理,去除所述第一数据中的脏数据得到所述待处理数据的处理结果,并将所述处理结果加载到所述目的端,得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编 ...
【技术特征摘要】
1.一种基于ETL规则的数据质量监控及预警系统,其特征在于,包括源数据标准化处理模块、数据仓库元数据管理模块、ETL规则处理模块、以及可视化预警报表生成模块,其中,
所述源数据标准化处理模块与所述数据仓库元数据管理模块相耦接,用于将同步到数据仓库中的源数据进行标准化处理得到标准化源数据,并将所述标准化源数据发送至所述数据仓库元数据管理模块;
所述数据仓库元数据管理模块分别与所述源数据标准化处理模块和所述ETL规则处理模块相耦接,用于对所述标准化源数据进行元数据管理,通过元数据将海量报表中的目标表、目标字段进行业务描述得到第一数据;
所述ETL规则处理模块分别与所述数据仓库元数据管理模块和所述可视化预警报表生成模块相耦接,用于选取对待处理数据进行ETL处理所述的来源端和目的端,所述第一数据为所述来源端,根据业务规则和数据标准从所述第一数据中提取待处理数据,对所述待处理数据进行相应的ETL处理,去除所述第一数据中的脏数据得到所述待处理数据的处理结果,并将所述处理结果加载到所述目的端,得到第二数据,所述脏数据是指不在给定的范围内或对于实际业务毫无意义、或是数据格式非法、或存在不规范的编码和含糊的数据;
所述可视化预警报表生成模块与所述ETL规则处理模块相耦接,对所述第二数据进行可视化,突出显示异常的数据库表。
2.根据权利要求1所述的基于ETL规则的数据质量监控及预警系统,其特征在于,还包括ETL处理规则设置模块,与所述ETL规则处理模块相耦接,用于接收用户设置的ETL处理规则,根据所述ETL处理规则对所述待处理数据进行相应的ETL处理,所述ETL处理规则包括根据预设的结构化查询语言SQL的处理标准设置的ETL处理规则。
3.根据权利要求1所述的基于ETL规则的数据质量监控及预警系统,其特征在于,所述ETL规则处理模块用于在收房明细数据中当收房合同中没有房间编号,则过滤掉此数据;根据身份证号计算年龄时,当身份证号不是正确的格式将其视为垃圾数据并用0替代。
4.根据权利要求1所述的基于ETL规则的数据质量监控及预警系统,其特征在于,所述源数据标准化处理模块依据数据源的类型同步数据源,所述数据源包括相关信息,所述相关信息包括数据源名称、数据源类型和数据源中数据表的...
【专利技术属性】
技术研发人员:李松前,李昭,陈浩,高靖,崔岩,卢述奇,陈呈,张宵,
申请(专利权)人:青梧桐有限责任公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。