一种数据质量检测方法和装置制造方法及图纸

技术编号:17667624 阅读:35 留言:0更新日期:2018-04-11 05:56
本发明专利技术提供了一种数据质量检测方法和装置,其中,该方法包括:预先设置至少两种数据标准,还包括:获取待检测数据表;在所述至少两种数据标准中确定至少两种目标数据标准;针对每一种所述目标数据标准,均执行:利用当前目标数据标准对所述待检测数据表进行数据质量检测;根据各个所述目标数据标准对应的检测结果,生成至少一个数据检测报告。本发明专利技术提供的方案能够对数据进行多个维度的检测。

A method and device for data quality detection

【技术实现步骤摘要】
一种数据质量检测方法和装置
本专利技术涉及计算机
,特别涉及一种数据质量检测方法和装置。
技术介绍
在企业运营过程中,由于多地区、多产品、多业务、多系统的环境,导致数据存在诸多质量问题,主要包括:数据不一致、不完整、不统一等问题,由此导致管理者、业务人员和信息使用者的误解,导致数据利用出现错误,企业决策出现偏差。同时低劣数据质量往往造成开发出来的系统与用户预期大相径庭,并且导致运行维护成本过高,工作量过大,系统难以扩展。综上所述,数据质量的检测对于提高数据质量的至关重要的。现有技术中,一般通过单一的规则对数据进行检测,例如,利用预先设置的格式规则检测目标数据的格式。但是,现有的方法只能对数据进行格式等单一维度的检测。
技术实现思路
本专利技术实施例提供了一种数据质量检测方法和装置,能够对数据进行多个维度的检测。第一方面,本专利技术实施例提供了一种数据质量检测方法,预先设置至少两种数据标准,还包括:获取待检测数据表;在所述至少两种数据标准中确定至少两种目标数据标准;针对每一种所述目标数据标准,均执行:利用当前目标数据标准对所述待检测数据表进行数据质量检测;根据各个所述目标数据标准对应的检测结果,生成至少一个数据检测报告。优选地,所述数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。优选地,所述数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。优选地,所述当前目标数据标准为约束规则;所述约束规则包括:等于规则、截取自规则和合并自规则;所述利用当前目标数据标准对所述待检测数据表进行数据质量检测,包括:利用所述等于规则判断所述待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用所述截取自规则判断所述待检测数据表中的目标字段是否截取自所述第一标准字段,利用所述合并自规则判断所述待检测数据表中的目标字段是否为所述第一标准字段和预先设置的第二标准字段的组合。第二方面,本专利技术实施例提供了一种数据质量检测装置,包括:设置单元,用于设置至少两种数据标准;确定单元,用于获取待检测数据表;在所述设置单元设置的所述至少两种数据标准中确定至少两种目标数据标准;检测单元,用于针对所述确定单元确定的每一种所述目标数据标准,均执行:利用当前目标数据标准对所述待检测数据表进行数据质量检测;生成单元,用于根据各个所述目标数据标准对应的检测结果,生成至少一个数据检测报告。优选地,所述数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。优选地,所述数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。优选地,所述当前目标数据标准为约束规则;所述约束规则包括:等于规则、截取自规则和合并自规则;所述检测单元,用于利用所述等于规则判断所述待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用所述截取自规则判断所述待检测数据表中的目标字段是否截取自所述第一标准字段,利用所述合并自规则判断所述待检测数据表中的目标字段是否为所述第一标准字段和预先设置的第二标准字段的组合。第三方面,本专利技术实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一实施例所述的方法。第四方面,本专利技术实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一实施例所述的方法。本专利技术实施例提供了一种数据质量检测方法和装置,其中,该方法能够利用多种数据标准对待检测数据表进行多个维度的检测,与现有技术中相比,该方法具有检测效率高、维护成本低、检测维度多样的优势。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种数据质量检测方法的流程图;图2是本专利技术另一个实施例提供的一种数据质量检测方法的流程图;图3是本专利技术一个实施例提供的一种数据质量检测装置的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供了一种数据质量检测方法,该方法可以包括以下步骤:步骤101:设置至少两种数据标准;步骤102:获取待检测数据表;步骤103:在至少两种数据标准中确定至少两种目标数据标准;步骤104:针对每一种目标数据标准,均执行:利用当前目标数据标准对待检测数据表进行数据质量检测;步骤105:根据各个目标数据标准对应的检测结果,生成至少一个数据检测报告。在图1所示的本专利技术实施例中,该方法能够利用多种数据标准对待检测数据表进行多个维度的检测,与现有技术中相比,该方法具有检测效率高、维护成本低、检测维度多样的优势。其中,对待检测数据表的数据质量检测包含两个层面的内容,对数据表的检测和对数据表中各个字段数据的检测。在本专利技术的一个实施例中,数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。其中,字段标准、数据元标准、约束规则、数据字典、敏感字段、黑名单和白名单用于对数据表中各个字段数据的检测,数据表标准用于对数据表进行检测。在实际应用场景中,一个字段可以对应多种数据标准。字段标准主要约束了数据的形态,如:数据是一个邮箱地址,中间应该包含“@”。数据字典约束了数据内容的范围不能超出字典范围。敏感字段包括敏感信息的枚举信息。黑名单、白名单中存储各个数据表中各个字段的检测信息,例如,身份证字段存在于多个数据表中,在10次数据质量检测过程中,都检测到该字段存在问题,则将该字段信息记录到黑名单中,如果只有1次检测到该字段存在问题,则将该字段信息记录到白名单中。在本专利技术的一个实施例中,数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。其中,一种检测结果可以对应多种数据监测报告。在本专利技术的一个实施例中,为了满足技术人员对自定义规则的需求,当前目标数据标准为约束规则;约束规则包括:等于规则、截取自规则和合并自规则;利用当前目标数据标准对待检测数据表进行数据质量检测,包括:利用等于规则判断待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用截取自规则判断待检测数据表中的目标字段是否截取自第一标准字段,利用合并自规则判断待检测数据表中的目标字段是否为第一标准字段和预先设置的第二标准字段的组合。约束规则的运用可以是复合型本文档来自技高网...
一种数据质量检测方法和装置

【技术保护点】
一种数据质量检测方法,其特征在于,预先设置至少两种数据标准,还包括:获取待检测数据表;在所述至少两种数据标准中确定至少两种目标数据标准;针对每一种所述目标数据标准,均执行:利用当前目标数据标准对所述待检测数据表进行数据质量检测;根据各个所述目标数据标准对应的检测结果,生成至少一个数据检测报告。

【技术特征摘要】
1.一种数据质量检测方法,其特征在于,预先设置至少两种数据标准,还包括:获取待检测数据表;在所述至少两种数据标准中确定至少两种目标数据标准;针对每一种所述目标数据标准,均执行:利用当前目标数据标准对所述待检测数据表进行数据质量检测;根据各个所述目标数据标准对应的检测结果,生成至少一个数据检测报告。2.根据权利要求1所述的数据质量检测方法,其特征在于,所述数据标准,包括:字段标准、数据元标准、数据表标准、约束规则、数据字典、敏感字段、黑名单和白名单中任意一种或多种的组合。3.根据权利要求1所述的数据质量检测方法,其特征在于,所述数据检测报告分为完整性报告、规范性报告、一致性报告、准确性报告、唯一性报告、关联性报告、安全性报告。4.根据权利要求1-3中任一所述的数据质量检测方法,其特征在于,所述当前目标数据标准为约束规则;所述约束规则包括:等于规则、截取自规则和合并自规则;所述利用当前目标数据标准对所述待检测数据表进行数据质量检测,包括:利用所述等于规则判断所述待检测数据表中的目标字段是否与预先设置的第一标准字段相同,利用所述截取自规则判断所述待检测数据表中的目标字段是否截取自所述第一标准字段,利用所述合并自规则判断所述待检测数据表中的目标字段是否为所述第一标准字段和预先设置的第二标准字段的组合。5.一种数据质量检测装置,其特征在于,包括:设置单元,用于设置至少两种数据标准;确定单元,用于获取待检测数据表,在所述设置单元设置的所述至少两种数据标准中确定至少两种目标数据标准;检测单元,用于针对所述确定单元确...

【专利技术属性】
技术研发人员:王洪添黄河潮
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1