一种面向企业数据集成的全面数据质量管理方法技术

技术编号:4239246 阅读:318 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种面向企业数据集成的全面数据质量管理方法,本方法包括基于规则的数据质量问题诊断、ETL数据加工处理过程的管理与监控、业务指标一致性的稽核以及质量问题智能归并等内容。本方法覆盖了企业数据集成中从数据源头到加工处理一直到最终加工完成的整个过程,可以对数据集成中的各种质量问题进行全面诊断、统一处理。使用基于本方法开发的系统可以方便地对企业数据集成过程进行全面的管理,有效提高企业数据质量,提高企业数据资产的价值。

【技术实现步骤摘要】

本专利技术涉及企业数据质量管理领域,特别是涉及。
技术介绍
如何运用信息化手段来帮助企业信息管理部门提高数据质量从而提高信息资源的使用价值是一个比较有意义的问题。当前主要有两种主流的技术方案 1)作为ETL整体解决方案一部分的数据质量管理,如IBM的quality stage,这种解决方案比较关注的是数据从联机交易系统通过抽取、转换到装载入数据仓库过程中的数据质量问题。 2)与元数据管理解决方案结合的数据质量管理,如石竹公司的quality one。这 种解决方案大都以一组业务指标为中心,通过部署在各个数据源的代理程序收集关于该指 标的信息,然后由后台质量管理组件按照一定的规则进行判断,从而识别潜在的数据质量 问题。 这两种方案都有较大的局限性对于第一种方案,首先往往无法覆盖到整个企业 数据环境,其次也不能覆盖到整个数据质量管理的全过程;对于第二种方案,往往要进行大 量的定制化开发,撰写并部署大量的agent代理程序,另外需要人手工做大量的分析和处 理工作,劳动强度和复杂度较大。
技术实现思路
本专利技术的目的是提供。 本专利技术的目的是按以下方式实现的,数据是企业重要的资产,而质量是数据资产的生命。低质量的数据将导致业务流程阻塞、运营成本增加和决策困难。本方法立足于企业数据集成过程,致力于整个企业数据环境数据质量的监控、诊断和持续改善。意在通过本方法以及基于本方法实现的信息系统的支持来全面提升企业数据质量管理水平。 该方法面向企业数据集成的全过程,针对数据加工过程的前、中、后采取了全方位的管理与控制;根据数据血缘关系,对大量数据质量问题进行智能归并,自动寻找最为基本、最为重要的数据质量问题;具体包括以下内容 1)对企业数据集成全过程的质量问题管理与监控,包括集成前的源系统规则诊断、集成过程中的ETL运行监控、集成后的指标一致性稽核; 2)建立企业数据血缘关系图谱并基于此提供质量问题归并方法; 3)建立数据质量规则库,基于规则进行灵活的诊断设定,方便的进行数据质量问题的诊断; 4)以数据库关系表描述了企业数据血缘关系图谱,并提供了基于血缘关系图谱的 质量问题智能归并算法; 5)数据质量规则库包括准确性、完整性、一致性、及时性四大类,每个大类下含十一小类,每一小类均给出了明确的定义及要点,且每一小类均有对应的诊断程序。 本专利技术的有益效果如下 (1)依据本专利所述方法设计开发的信息系统中的数据质量规则引擎使得用户通 过简单的规则配置即可实现数据质量问题的自动诊断与报告,极大的减轻了企业数据质量 管理人员的工作量,提供了劳动效率。(2)本方法所设计的系统覆盖企业数据集成的全方面,涵盖数据的产生、加工、应用的全过程。对企业数据质量的全方位控制与提升可以起到有益的促进效果。(3)本专利技术所设计的数据质量问题归并器,可以自动对大量数据质量问题进行归纳总结,并追根溯源直接找到问题的源头,提高了数据质量问题的解决速度。附图说明 图1是数据质量规则库分类表; 图2是质量诊断覆盖数据集成的流程图; 图3是数据质量诊断及处理流程图。具体实施例方式本专利技术通过如下措施来达到上述目标 1)本专利技术通过对数据质量评估框架的深入分析,构造了一个独特的数据质量规则 库,以此来描述业务对数据的内在质量要求和数据的内在联系,通过这些规则我们可以方 便的进行数据质量问题的诊断。 根据我们对企业数据质量的深入分析,归纳总结出常见质量问题的四个大类准 确性问题、完整性问题、一致性问题、及时性问题。每个问题大类下面又可细分为若干小类。 对应质量问题的类别,我们进行抽象总结即得到了企业数据质量规则体系,如图1所示 这些规则基本上做到了对企业数据质量问题的全面覆盖。我们针对每一种规则都 编制了特定的诊断处理逻辑。这样我们将各业务系统中业务对数据的要求及数据本身内在 的联系均维护成相应的规则,在数据抽取之前首先对这些规则进行统一诊断,即可提前发 现业务系统隐藏的数据质量问题,防止质量问题的进一步扩散。 2)当前企业数据集成,最常用的技术手段是使用ETL工具来完成数据由业务系统 到数据仓库的抽取、转换、装载过程。ETL过程是否正常执行将对企业数据仓库的数据质量 产生直接的影响。 本专利所涉及的系统针对常用的多种ETL工具分别开发了执行监控程序。监控程 序以读取解析ETL日志为主,配合ETL重大事件的监听完成了对ETL执行过程的监控。 3)ETL执行完成后,企业数据集成过程基本完成,企业数据被集中到了数据仓库。 数据仓库的数据是决策分析的最终依据,其数据是否准确将直接影响分析结果,进一步影 响到企业的经营决策。 本专利涉及的方法针对企业数据集成的结果即数据仓库数据的准确性提出了进 一步验证的思路并在系统中进行了实现。验证包含以下三部分内容 >验证数据仓库关键指标值与源系统指标值是否一致。 >验证关键指标在各个业务系统及数据仓库中的值是否一致。 >验证关键指标在数据仓库不同实体中的值是否一致。 通过以上三部分验证可以确保数据仓库与业务系统的数据准确、一致,保证了决 策分析基于正确的数据进行。 4)上面三点从企业数据集成的前、中、后三个阶段入手,保证了数据集成全过程的 数据质量问题可以及时的被发现。同时本方法提供了一种数据质量问题快速总结处理的手 段——质量问题智能归并。 经过对企业数据质量问题的深入研究与分析,我们发现数据质量问题存在明显的 扩散现象,特别是在企业数据集成过程中,这种现象表现的尤为明显。所谓扩散是指,如果 企业中的某一个数据存在质量问题而未及时处理,那么随着业务的逐步进展以及企业数据 的集成过程,会引发越来越多的质量问题。例如,一个商品属性错误,随着业务的进展以及 企业数据的集成可能导致订单数据、库存数据、日结数据、月结数据、销售汇总数据等均出 现质量问题。当我们通过数据质量管理方法发现这么多质量问题后,如果能快速准确地找 到核心问题,将极大的提高我们问题处理的速度,并有助于防范类似问题的再次发生。我们 提供的质量问题智能归并方法就是专为完成该功能设计的。 质量问题归并器基于数据血缘关系图谱进行工作。所谓数据血缘关系图谱即通过 元数据来描述企业数据以及数据间的关系。通过这种元数据描述,我们可以清晰的知道当 一个数据发生改变将对哪些数据产生何种影响。当血缘关系图谱建立好以后,企业中的所 有数据对象均可在其上找到自己的位置,数据对象间的影响关系也均已明确。然后质量问 题智能归并器可以在其上开始工作 >首先获取系统诊断出的所有数据质量问题列表。 >循环数据质量问题列表,对每个质量问题做如下处理 B确定该质量问题对应的数据在血缘关系图上的位置。 B扫描本节点的所有父节点,如果所有父节点均不存在质量问题则当前质量问题为核心问题之一,将其存储起来;如果存在有质量问题父节点,则可判断该问题为父节点扩 散的质量问题,存储该节点与父节点的扩散关系。 >列表循环完成后,可以得到两部分数据核心问题列表与质量问题扩散关系列表。 >核心问题列表即为质量问题归并器工作的成果,即源头问题列表。根据扩散关系 列表可以找出每个源头问题引发了哪些数据质量问题。 在根据本方法设计的数据质量管理系统中,我们采用数据本文档来自技高网...

【技术保护点】
一种面向企业数据集成的全面数据质量管理方法,其特征在于,该方法面向企业数据集成的全过程,针对数据加工过程的前、中、后采取了全方位的管理与控制;根据数据血缘关系,对大量数据质量问题进行智能归并,自动寻找最为基本、最为重要的数据质量问题;具体包括以下内容:    1)对企业数据集成全过程的质量问题管理与监控,包括:集成前的源系统规则诊断、集成过程中的ETL运行监控、集成后的指标一致性稽核;    2)建立企业数据血缘关系图谱并基于此提供质量问题归并方法;    3)建立数据质量规则库,基于规则进行灵活的诊断设定,方便的进行数据质量问题的诊断;    4)以数据库关系表描述了企业数据血缘关系图谱,并提供了基于血缘关系图谱的质量问题智能归并算法;    5)数据质量规则库包括:准确性、完整性、一致性、及时性四大类,每个大类下含十一小类,每一小类均给出了明确的定义及要点,且每一小类均设置有对应的诊断程序。

【技术特征摘要】
一种面向企业数据集成的全面数据质量管理方法,其特征在于,该方法面向企业数据集成的全过程,针对数据加工过程的前、中、后采取了全方位的管理与控制;根据数据血缘关系,对大量数据质量问题进行智能归并,自动寻找最为基本、最为重要的数据质量问题;具体包括以下内容1)对企业数据集成全过程的质量问题管理与监控,包括集成前的源系统规则诊断、集成过程中的ETL运行监控、集成后的指标一致性稽核;2)...

【专利技术属性】
技术研发人员:张永刚雷天武郑斌
申请(专利权)人:山东浪潮齐鲁软件产业股份有限公司
类型:发明
国别省市:88[中国|济南]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1