用于数据质量监控的系统和方法技术方案

技术编号:8161463 阅读:148 留言:0更新日期:2013-01-07 19:29
本发明专利技术公开了用于数据质量监控的系统和方法。数据质量监控指的是相对于预定数据质量度量来测量加载的数据的数据质量。通过把在质量规则中定义的逻辑演算应用于加载的数据来测量数据质量。利用以下至少之一来进行数据质量测量:加载的数据的增量变化和质量规则的增量变化。

【技术实现步骤摘要】

本专利技术一般涉及ETL(提取-转换-加载)过程期间的数据剖析方法,更具体地说,涉及通过运行数据质量规则并对照先前的结果比较数据质量规则来确定数据质量是提高了还是降低了的数据质量监控。
技术介绍
目前,在用于诸如主数据管理(MDM, master data management)、数据仓储(DW,data warehousing)、业务应用整合等的数据集成项目中,利用ETL (提取-转换-加载)过程中的数据剖析技术和/或数据清理方法来识别数据质量问题,使得在这些系统的初始加载阶段期间,只加载高质量的数据。然而,在数据质量问题正在变成企业的成本因素或者甚至完全中断业务过程的业务应用中,数据质量退化。在这些应 用系统中,利用数据质量规则定期地测量数据质量是检测退化的速度或者数据质量随着时间的变化以及如果某些最低限度要求的数据质量关键性能指标(KPI)不再被满足而采取行动的动机的唯一途径。对于比如MDM的解决方案来说,除了 MDM系统的部署之外,还建立数据支配(DG,datagovernance)程序以控制主数据的创建、维护和使用以及在其整个生命周期内的主数据质量。在数据支配组织中工作的数据专员定期应用数据剖析测量来控制与主数据的数据质量KPI—致。测量通常是利用语义规则(多种数据剖析技术之一)来进行的。定义数据质量KPI、语义规则、创建初始加载期间的第一基线测量、定期执行这些规则、以及对照基线结果进行比较的步骤被称为数据质量监控。数据剖析和数据质量监控是I/O密集操作,并且非常费时。因此,对数据质量剖析和数据质量监控来说,可选的是把数据提取到中转区中,以避免由额外的I/o或者因为应用不允许不使用应用专用机制(例如SAP)而直接访问底层数据库而引起的应用性能退化。另一个原因是如果应用和数据剖析工具所创建的SQL同时在应用数据库中运行,那么避免由SQL语句并发问题引起的应用的功能问题。诸如DW或业务应用整合的项目中的初始完整数据提取通常需要整个周末,从而由于引起的1/0,在这样的提取期间导致应用的性能退化。对一些系统来说,可能能够定期地获得用于数据质量监控目的的跨周末的数据提取时段。对诸如持久运行的电子商务系统或者其它关键系统的应用来说,通常只能争取用于数据集成的一次性提取的时段。因此,不能进行数据质量监控,并且在业务过程中断或者出现其它严重业务问题之前,数据质量的退化一直未被检测到。一方面,如果考虑目前已知的数据质量监控技术总是在进行进一步的测量的同时,处理在基线测量的范围内的所有数据,那么该问题会加剧。另一方面,数据量不断增长,并且两次测量之间的时间窗缩短。结果,当下一次测量大概已开始时,上一次测量可能还未完成,从而使一些情况下的数据质量监控甚至不再可行。目前,数据质量监控领域中缺少的是只处理自最后一次测量以来变化的数据、只重新执行自最后一次测量以来变化的语义规则的各个部分或者它们的组合的能力。US 2010/0010979A1提供了用于简量精度数据质量信息清理反馈处理的方法和计算机程序产品。US 2008/0027958A1提供了一种能够在没有人类交互的情况下修改数据记录,响应于来自各种数据质量模块的分析而修改数据记录的数据清理工具。
技术实现思路
本专利技术提供一种如权利要求中要求保护的计算机实现的系统。本专利技术的实施例提供了一种系统和方法,通过对照基线结果比较当前分析结果,随时间利用预定的数据质量度量来检测和控制数据质量。为了优化运算技术,只对数据的增量变化、对质量规则的增量变化和/或对它们的组合进行数据剖析分析。通过在增量加载期间利用交叉参照表,提出的数据质量监控方法基于变化数据捕获(⑶c, change data capture)机制(比如基于事务日志的机制或者基于触发的复制)。它使用列式存储技术,从而根据质量规则的运算 的区别,允许借助数据质量规则的分解,最小化数据质量规则对数据的执行时间,以及借助高度压缩和传播策略,最小化额外的存储。本专利技术的实施例在测量数据质量KPI以及两次运行之间KPI的比较方面是有利的,从而提供了接近确定数据质量是提高还是降低的可能性。本专利技术的实施例具有最小化对应用系统性能的影响以及缩短进行数据质量监控的必需时间的优点。通过只对数据的增量变化、只对质量规则的增量变化和/或对它们的组合进行数据质量分析,本专利技术的系统和方法可克服本领域中目前存在的数据剖析/质量监控的问题。附图说明包含在说明书中并构成说明书的一部分的附解说明了本专利技术的几个实施例,并且与下面的说明一起,用于解释本专利技术的原理。参考附图详细说明本专利技术的实施例。图I是示出按照本专利技术的例证解决方案架构的方框图。图2是示出按照本专利技术的实施例的流程图,其中,初始数据集的第一负载被从数据源中提取,并在被变换成主存储器(RAM)中的列式格式之后,被加载到增量数据质量监控器(DDQM, delta data quality monitor)中,以测量初始数据质量,从而生成数据质量度量的基线简档。图3是示出按照本专利技术的实施例的流程图,其中,相对于先前的负载,测量被提取并被变换的增量变化的数据质量。图4是示出按照本专利技术的实施例的示图,其中,从数据源中提取的数据被变换成主存储器(RAM)中的列式格式。图5是示出按照本专利技术的实施例的示图,其中,质量规则被分解成它的各项,从而生成分解树。图6是示出按照本专利技术的实施例的示图,其中,质量规则被分解成它的各项,并被应用于主存储器(RAM)中的数据列。图7是示出按照本专利技术的实施例的示图,其中,质量规则已被改变,表示只有已受到规则的数据变化影响的列式数据对象需要主存储器(RAM)的更新或重新计算。图8是示出按照本专利技术的实施例的示图,其中,在提取的数据的数据变化之后,列式数据对象的更新仅仅通过与单独的相关数据列具有相关性的中间列式数据对象传播。具体实施例方式图I图解说明了数据质量监控的例证系统的方框图。如图所示,系统包括数据源100,在初始提取过程102中,数据集从数据源100被提取到中转区106中。在创建交叉参照表108之后,在初始加载过程110期间,变换后的数据集被加载到增量数据质量监控器(DDQM) 118中的主存储器(RAM) 120中的列式结构122中。存在两组列式结构第一组保持数据(下面被称为数据列),第二组保持数据质量监控的中间结果(下面被称为列高速缓存)。用户利用客户端应用115连接到部署在应用服务器116上的数据剖析应用,以创建和维持由DDQM 118执行的数据质量规则。必需的元数据被保存在元数据仓库114中。数据集的提取、转换和加载定义传送由DDQM 118监控的数据的ETL过程,DDQM 118传送与本专利技术一致的质量测量的中间结果。增量数据质量监控器118可视情况耦接到剖析集市124,在剖析集市124中,能够获得质量测量的带时间戳的中间结果,使得能够实现例如防备硬件故障的业务弹性,避免了重新运行所有规则以便再次在主存储器120中实例化列式结构122的需要。 在数据源100和中转区106之间工作的⑶C机制识别借助增量加载过程112加载的增量变化。在增量加载过程112中,应用一组新的操作,以最小化对主存储器120中的包含数据列和列高速缓存的列式结构122的影响。通过利用部署在用户所本文档来自技高网
...

【技术保护点】
一种计算机实现的方法,通过相对于预定的数据质量度量测量加载的数据的数据质量来监控数据质量,其中,通过把在质量规则中定义的逻辑演算应用于加载的数据来测量数据质量,所述方法包括:利用加载的数据的增量变化和/或质量规则的增量变化来进行数据质量测量。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:M·奥伯霍菲尔J·塞弗特Y·赛勒特S·尼尔克
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1