一种数据质量检测方法和装置制造方法及图纸

技术编号:11827864 阅读:90 留言:0更新日期:2015-08-05 11:07
本申请公开了一种数据质量检测方法和装置,先单独从源库中抽取数据;然后再根据预设的质量规则,对所述抽取得到的数据进行质量检测;最后再将通过所述质量检测的数据,进行整合处理。采用本发明专利技术,可以提高数据抽取效率和数据质量,并且易于质量检测规则的扩展。

【技术实现步骤摘要】

本专利技术涉及数据仓库技术,特别是涉及一种数据质量检测方法和装置
技术介绍
数据仓库(Data Warehouse,Dff或DWH)是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。抽取-转换-加载(Extract-Transform-Load,ETL)过程是一种将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的数据处理过程。ETL较常用在数据仓库技术中。其中,抽取可以理解为是把源数据的数据抽取到数据仓库中;转换是指开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总;加载是经转换和汇总的数据到目标数据仓库中。随着大数据的广泛应用,数据成为组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。目前数据仓库中数据质量的检测是和数据仓库ETL过程中的抽取环节密切关联的,即在数据抽取的同时进行数据质量检查,也就是说,数据质量检测和数据抽取的脚本代码是揉和在一起的。因此,现有的质量检测方案与抽取环节耦合度太高,如此,将会导致存在下述问题。1、数据质量校验的成败会很大程度地影响数据抽取的速度。如果数据质量校验失败,则需要重新进行质量检验,而质量校验与抽取两者是捆绑在一起的,这样,数据的抽取步骤也将需要重新执行,因此,数据质量校验的失败会导致数据的整体抽取速度低。2、数据质量低。由于质量校验与抽取捆绑在一起,为了提高数据抽取的效率,相应的SQL语句中考虑的字段将会较少,这样,SQL语句中的约束条件就会很宽松,从而会导致基于此所抽取到的数据可能并不满足严格的技术和业务逻辑规则,进而降低所抽取数据的质量。3、数据质量检测规则的扩展性差,由于质量校验与抽取两者是捆绑在一起的,当数据质量检测规则需要更新时,也需要同时更改抽取环节的相关脚本代码,这样,数据质量检测规则更新时相应的脚本代码的修订工作量会较大,从而不利于数据质量检测规则维护扩展。由此可见,现有的数据质量检测方法存在影响数据抽取效率、降低数据质量以及难于维护数据质量检测规则等问题。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种数据质量检测方法和装置,可以提高数据抽取效率和数据质量,并且易于数据质量检测规则的扩展。为了达到上述目的,本专利技术提出的技术方案为:一种数据质量检测方法,包括:a、从源库中抽取数据;b、根据预设的质量规则,对所述抽取得到的数据进行质量检测;c、将通过所述质量检测的数据,进行整合处理。一种数据质量检测装置,包括:第一抽取单元,用于从源库中抽取数据;质检单元,用于根据预设的质量规则,对所述抽取得到的数据进行质量检测;第二抽取单元,用于将通过所述质量检测的数据,进行整合处理。综上所述,本专利技术提出的数据质量检测方法和装置,先单独进行数据抽取再对抽取结果进行质检,如此,质量检测对应的脚本代码将会独立于所述抽取的脚本代码,从而可以避免现有质量检测方案所存在的诸多问题,可以提高数据抽取效率和数据质量,并且易于数据质量检测规则的扩展。【附图说明】图1为本专利技术实施例的方法流程示意图;图2为本专利技术实施例的装置结构示意图。【具体实施方式】为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术作进一步地详细描述。本专利技术的核心思想是:将抽取过程中的数据抽取和数据整合分离开,先单独进行数据抽取,在数据整合之前对数据抽取结果进行质检。这样,抽取的脚本代码可以独立于质量检测的脚本代码,就不会存在两者绑定在一起时存在的诸多问题,即质量检测的成败不会再影响数据抽取的整体进度,同时还可以提高质量检测的准确度、确保数据质量,数据质量检测规则的扩展也易于实现。图1为本专利技术实施例的数据质量检测方法流程示意图,如图1所示,该实施例主要包括:步骤101、从源库中抽取数据。本步骤用于单独从源库中抽取数据,这样,数据抽取的脚本代码可以独立于质量检测的脚本代码,从而可以避免两者捆绑在一起时所产生的诸多问题。在实际应用中,可以采用现有的抽取方法从源库中抽取数据。较佳地,为了保证抽取的数据和源库数据保持一致,可以采用一对一抽取的方式进行所述抽取,具体的一对一抽取方法为本领域人员所掌握,在此不再赘述。步骤102、根据预设的质量规则,对所述抽取得到的数据进行质量检测。本步骤,用于对抽取后的数据进行质量检测。这里,由于质量检测的脚本代码独立于步骤101中数据抽取的脚本代码,因此,质量检测时将不需要考虑提高数据抽取效率的需要,这样,相应质检SQL语句中的约束条件可以包含更多字段,从而可以与实际的质量规则相匹配,进而可以确保数据的质量。在实际应用中,所述质量规则可由本领域技术人员根据实际应用需要进行设置,具体可以包括技术规则和业务逻辑规则。在此情况下,为了使质量检测的脚本代码具有更强的可维护性,即使得质量规则易于维护扩展,较佳地,可以使规则之间有一定逻辑性,具体地,可以按照先技术规则检测后业务逻辑规则检测的原则,进行所述质量检测。另外,较佳地,为便于质量规则的维护扩展,当需要增加新的质量规则时,可以按照保持已有质量规则独立性的原则,来增加所述新的质量规则的脚本代码。进一步的,为了进一步提高数据存储的完整性,对于本步骤中检测不通过的数据,可以将其作为源库的备份数据保存在数据仓库中。较佳地,为了使数据仓库维护人员可以及时获知所检测到的数据质量异常问题,并进行相应的异常处理,本步骤中当检测到没通过质量检测的数据时,触发相应的数据检测异常处理过程。具体的异常处理方法为本领当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种数据质量检测方法,其特征在于,包括:a、从源库中抽取数据;b、根据预设的质量规则,对所述抽取得到的数据进行质量检测;c、将通过所述质量检测的数据,进行整合处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:白贤锋
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1