数据质量检测方法、装置及存储介质制造方法及图纸

技术编号:20915814 阅读:18 留言:0更新日期:2019-04-20 09:33
本发明专利技术涉及大数据技术,提供了一种数据质量检测方法、装置及计算机可读存储介质。该方法包括:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。利用本发明专利技术,可以实现数据质量检测自动化,提高数据质量检测效率,降低人工和时间成本。

Data Quality Detection Method, Device and Storage Media

The invention relates to large data technology, and provides a data quality detection method, device and computer readable storage medium. The method includes: obtaining at least one data to be detected from the data source, in which each data to be detected includes content data and metadata; matching at least one detection rule for each data to be detected in the pre-established detection rule base according to the preset matching rule; and detecting the data to be detected by using matching detection rule to obtain data quality detection. Result. By using the invention, the automation of data quality detection can be realized, the efficiency of data quality detection can be improved, and the labor and time cost can be reduced.

【技术实现步骤摘要】
数据质量检测方法、装置及存储介质
本专利技术涉及数据处理
,尤其涉及一种数据质量检测方法、装置及计算机可读存储介质。
技术介绍
随着信息技术的发展和大数据时代的到来,数据信息朝着海量、多样化的方向发展,数据质量日益受到各企业以及政府部门的重视。其中,如何对数据质量进行灵活、准确、高效的检测是一个非常值得关注的研究方向。目前,对于数据质量的检测,通常需要测试人员根据业务逻辑,对每个字段构造全面的测试用例,即由测试人员编写测试用例的代码和执行逻辑,并由测试人员判断执行结果中是否存在异常、是否满足业务需求。如果测试完成后涉及到对异常数据的修复,还需要在数据修复后再次人工测试回归,反复编写和执行测试用例。因为这种方式是人为参与,测试用例的覆盖率有限,所以对异常数据存在漏检的可能,由于对不同的字段以及修复后的数据需要重复执行测试用例,检测效率也难以得到保证。
技术实现思路
鉴于以上原因,有必要提供一种数据质量检测方法、装置及计算机可读存储介质,实现自动化的数据质量检测,提高数据质量检测的效率和通用性,减少人为因素对数据质量检测结果造成的影响。为实现上述目的,本专利技术提供一种数据质量检测方法,应用于电子装置,该方法包括:获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。优选地,所述元数据包括该条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。优选地,该方法还包括:将属于同一字段的待检测数据归为一个待检测数据组,为每个待检测数据组中的待检测数据统一匹配检测规则。优选地,所述检测规则为基于MapReduce的并行化检测规则,每个检测规则包括规则名称、规则描述和预期结果。优选地,在所述检测步骤之后,该方法还包括:若所述数据质量检测结果为异常且数据异常率大于预设告警阈值,则以预设方式对异常问题发出警示。本专利技术还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括数据质量检测程序,该数据质量检测程序被所述处理器执行时实现如下步骤:获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。优选地,所述元数据包括该条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。优选地,该方法还包括:将属于同一字段的待检测数据归为一个待检测数据组,为每个待检测数据组中的待检测数据统一匹配检测规则。优选地,所述检测规则为基于MapReduce的并行化检测规则,每个检测规则包括规则名称、规则描述和预期结果。优选地,在所述检测步骤之后,该方法还包括:若所述数据质量检测结果为异常且数据异常率大于预设告警阈值,则以预设方式对异常问题发出警示。本专利技术还提供一种计算机可读存储介质,该计算机可读存储介质中存储有数据质量检测程序,该数据质量检测程序被所述处理器执行时实现如下步骤:获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。本专利技术提供的数据质量检测方法、装置及计算机可读存储介质,通过从数据源中获取包括内容数据和元数据的至少一条待检测数据,然后根据预设的匹配规则在预先建立的检测规则库中为每条待检测数据匹配至少一条检测规则,最后利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。通过扩展和维护所述检测规则库,可以提高数据质量检测的覆盖率和准确度,因为整个数据质量检测过程可以自动化完成,无需人工干预,所以利用本专利技术,还可以降低人工和时间成本,提高检测效率,避免人为因素对数据质量检测结果造成的影响。附图说明图1为本专利技术电子装置一实施例的示意图;图2为图1中数据质量检测程序一实施例的程序模块图;图3为本专利技术数据质量检测方法第一实施例的流程图;图4为本专利技术数据质量检测方法第二实施例的流程图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚明白,下面将结合若干附图及实施例,对本专利技术进行进一步的详细说明。应当理解的是,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供一种电子装置。参照图1所示,为本专利技术电子装置1一实施例的示意图。在该实施例中,所述电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。在一个实施例中,当所述电子装置1为服务器时,该服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等的一种或几种。所述电子装置1包括存储器11、处理器12及网络接口13。其中,所述存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器,例如所述电子装置1上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。在本实施例中,所述存储器11的可读存储介质通常用于存储获取的待检测数据、预先建立的检测规则库以及数据质量检测程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。所述处理器12可以是一中央处理器(CentralProcessingUnit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述数据质量检测程序10等。所述网络接口13可以包括标准的有线接口、无线接口(如WI-FI接口)。通常用于在该电子装置1与其他电子设备或系统之间建立通信连接,例如与数据源建立通信连接。图1仅示出了具有组件11-13以及数据质量检测程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。可选地,该电子装置1还可以包括输入单元比如键盘(Keyboard),语音输入装置比如麦克风(Microphone)等具有语音识别功能的设备以及语音输出装置比如扬声器、耳机等。其中,所述输入单元可用于向所述预先建立的检测规则库中增添新建的数据检测规则。可选地,该电子装置1还可以包括显示器,也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Org本文档来自技高网...

【技术保护点】
1.一种数据质量检测方法,应用于电子装置,其特征在于,该方法包括:获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。

【技术特征摘要】
1.一种数据质量检测方法,应用于电子装置,其特征在于,该方法包括:获取步骤:从数据源中获取至少一条待检测数据,其中,每条待检测数据包括内容数据和元数据;匹配步骤:根据预设的匹配规则在预先建立的检测规则库中为所述每条待检测数据匹配至少一条检测规则;及检测步骤:利用匹配的检测规则对所述待检测数据进行检测,得到数据质量检测结果。2.如权利要求1所述的数据质量检测方法,其特征在于,所述元数据包括该条待检测数据的重要程度、默认值、时间戳、所属字段以及该字段的数据类型中的一种或多种。3.如权利要求2所述的数据质量检测方法,其特征在于,该方法还包括:将属于同一字段的待检测数据归为一个待检测数据组,为每个待检测数据组中的待检测数据统一匹配检测规则。4.如权利要求1所述的数据质量检测方法,其特征在于,所述检测规则为基于MapReduce的并行化检测规则,每个检测规则包括规则名称、规则描述和预期结果。5.如权利要求1所述的数据质量检测方法,其特征在于,所述检测步骤还包括:若所述数据质量检测结果为异常且数据异常率大于预设告警阈值,则以预设方式对异常问题发出警示。6.一种电子装置,包括存储器和处理器,其特征在于,所述存储...

【专利技术属性】
技术研发人员:袁泉
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1