一种数据质量评估方法、设备及介质技术

技术编号:39037083 阅读:13 留言:0更新日期:2023-10-10 11:50
本申请公开了一种数据质量评估方法、设备及介质,方法包括:基于预设的多个评估维度,建立数据质量评估指标体系;获取待评估数据对应的待评估数据表和元数据表,确定待评估数据在数据质量评估指标体系下,各评估指标对应的实测值;确定待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;根据评估指标权重矩阵、评估指标选取矩阵、实测值,构建数据质量评估模型,以便根据数据质量评估模型对待评估数据进行数据质量评估。通过建立系统全面的多维度、多指标质量评估指标体系,构建合理有效的质量评估分析模型实现对数据质量进行定量评估和分析,能够为数据开发与使用提供针对性指导,为数据质量提高奠定基础。为数据质量提高奠定基础。为数据质量提高奠定基础。

【技术实现步骤摘要】
一种数据质量评估方法、设备及介质


[0001]本申请涉及计算机领域,具体涉及一种数据质量评估方法、设备及介质。

技术介绍

[0002]作为重要的信息载体,数据是一种生产要素和重要的生产力,是社会经济发展的基石,是现代社会的基础性资源和战略性资源,广泛应用于零售、电信、制造、农业、金融、农业等众多行业,产生了巨大的社会价值和产业潜力。其实际应用价值主要体现在两个重要方面:一方面,数据不仅可以帮助企业分析市场及其发展趋势用于提高企业的创新能力和核心竞争力;另一方面,还可以帮助监管部门监管和决策用于提高监管部门的服务质量和效率。
[0003]然而,很多实际情况下会存在数据不完整、数据不一致、元数据缺失、数据类型不准确、数据格式不标准、数据取值不合理、数据重复或多余、数据失效等数据质量问题。这些问题的存在将极大影响数据中蕴含信息的可靠性,从而影响数据的实际价值。因此,需要对数据质量问题进行评估分析。

技术实现思路

[0004]为了解决上述问题,本申请提出了一种数据质量评估方法,包括:
[0005]基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标;
[0006]获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值;
[0007]确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;
[0008]根据所述评估指标权重矩阵、所述评估指标选取矩阵、所述实测值,构建数据质量评估模型,以便根据所述数据质量评估模型对所述待评估数据进行数据质量评估。
[0009]另一方面,本申请还提出了一种数据质量评估设备,包括:
[0010]至少一个处理器;以及,
[0011]与所述至少一个处理器通信连接的存储器;其中,
[0012]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:上述示例所述的数据质量评估方法。
[0013]另一方面,本申请还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:上述示例所述的数据质量评估方法。
[0014]通过本申请提出数据质量评估方法能够带来如下有益效果:
[0015]通过建立系统全面的多维度、多指标质量评估指标体系,构建合理有效的质量评估分析模型实现对数据质量进行定量评估和分析,能够为数据开发与使用提供针对性指导,为数据质量提高奠定基础。
附图说明
[0016]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017]图1为本申请实施例中数据质量评估方法的流程示意图;
[0018]图2为本申请实施例中一种场景下,数据质量评估方法的示意图;
[0019]图3为本申请实施例中数据质量评估设备的示意图。
具体实施方式
[0020]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0021]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0022]如图1所示,本申请实施例提供数据质量评估方法,包括:
[0023]S101:基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标。
[0024]图2为本申请实施例中一种场景下,数据质量评估方法的示意图,以下结合图1和图2进行解释说明。
[0025]具体地,确定预设的多个评估维度,每个评估维度中包含多个评估指标。
[0026]进一步地,评估维度包括:完整性评估维度、有效性评估维度、唯一性评估维度以及一致性评估维度。针对完整性评估维度,其中的评估指标包括:数据非空值率、属性数据非空值率;针对有效性评估维度,其中的评估指标包括:数据类型有效率、数据格式有效率、数据取值有效率;针对唯一性评估维度,其中的评估指标包括:主键数据单一率、非主键数据单一率;针对一致性评估维度,其中的评估指标包括:数据等值一致率、数据逻辑一致率、数据存在一致率。数据质量评估指标体系可以如下表所示。
[0027][0028][0029]数据质量评估指标体系中的评估指标可按照探查范围是否需要额外设定分为两组:一组为基础评估指标,包括数据非空值率、属性数据非空值率、数据类型有效率等探查范围默认为整体数据的评估指标;另一组为待定评估指标,包括除基础评估指标之外探查范围需要根据数据本身特点选取设定的其它评估指标。基础评估指标是默认的、固定的评估指标,用于评估每个待评估数据表,待定评估指标则需要根据待评估数据表本身特点灵活选取使用。评估指标都是通过比值定义法给出的正向评估指标,取值于0至1之间的数值,其最终得到的对应的实测值是标准一致的,可在不进行标准化处理的情况下直接使用。
[0030]在所构建的数据质量评估指标体系中,每个评估指标都较为合理地描述待评估数据在某些特定方面的质量问题。比如,手机号码、邮箱、邮编、IP地址、身份证号等具有格式规则约束的数据可使用数据格式有效率定量描述此类数据在格式规范方面的质量问题;性别、学历、等级分类、婚姻状况等枚举取值的数据以及身高、体重、分数、薪资等具有合理取值规律的数据可使用数据取值有效率定量描述上述此类数据在取值规范方面的质量问题;
总成绩与各单科成绩等具有计算依赖关联性的数据可使用数据等值一致率定量描述此类数据在计算关联一致方面的质量问题;年销量与月销量、PV与UV等具有逻辑依赖关联性的数据可使用数据逻辑一致率定量描述此类数据在逻辑关联一致方面的质量问题;身份证号与出生年月等具有匹配依赖关联性的数据可使用数据存在一致率定量描述此类数据在匹配关联一致方面的质量问题。
[0031]S102:获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值。
[0032]具体地,获取待评估数据,并根据待评估数据生成待评估数据表。待评估数据可以从相应的系统获取。为能够基于数据质量评估指标体系实现对其中数据的定量评估和分析,还需通过自动采集数据源系统库中存储所创建数据库、表和字段信息的相关数据表和人工填写的方式确定记录待评估数据表相关元数据信息的元数据表,确定用于记录待评估数据表的元数据所组成的元数据表,元数据表包括表名、字段名、字段类型、字段长度、格式约束、取值约束、字段描述、业务定义、业务规则、创建时间、更新时间。根据待评估数据表的行数N...

【技术保护点】

【技术特征摘要】
1.一种数据质量评估方法,其特征在于,包括:基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标;获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值;确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;根据所述评估指标权重矩阵、所述评估指标选取矩阵、所述实测值,构建数据质量评估模型,以便根据所述数据质量评估模型对所述待评估数据进行数据质量评估。2.根据权利要求1所述的方法,其特征在于,基于预设的多个评估维度,建立数据质量评估指标体系,具体包括:确定预设的多个评估维度,每个所述评估维度中包含多个评估指标;确定所述评估指标的类型包括:基础评估指标和待定评估指标,所述待定评估指标基于需求得到;根据确定的所有评估指标建立数据质量评估指标体系。3.根据权利要求2所述的方法,其特征在于,所述评估维度包括:完整性评估维度、有效性评估维度、唯一性评估维度以及一致性评估维度;针对所述完整性评估维度,其中的评估指标包括:数据非空值率、属性数据非空值率;针对所述有效性评估维度,其中的评估指标包括:数据类型有效率、数据格式有效率、数据取值有效率;针对所述唯一性评估维度,其中的评估指标包括:主键数据单一率、非主键数据单一率;针对所述一致性评估维度,其中的评估指标包括:数据等值一致率、数据逻辑一致率、数据存在一致率。4.根据权利要求3所述的方法,其特征在于,获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值,具体包括:获取待评估数据,并根据所述待评估数据生成待评估数据表;确定用于记录所述待评估数据表的元数据所组成的元数据表,所述元数据表包括表名、字段名、字段类型、字段长度、格式约束、取值约束、字段描述、业务定义、业务规则、创建时间、更新时间;根据所述待评估数据表的行数、字段数,以及所述元数据表的字段数,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值。5.根据权利要求4所述的方法,其特征在于,根据所述待评估数据表的行数、字段数,以及所述元数据表的字段数,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值,具体包括:确定所述待评估数据表的行数N
r
、字段数N
c
,以及所述元数据表的字段数N
m
;针对所述数据非空值率,通过得到对应的实测值,其中,为数据非空值
率,为所述待评估数据表中,所有的探查字段中不为空的记录值的总和;针对所述属性数据非空值率,通过得到对应的实测值,其中,为属性数据非空值率,为所述元数据表中,所有的探查字段中不为空的记录值的总和;针对所述数据类型有效率,通过得到对应的实测值,其中,为数据类型有效率,为在预设的筛选条件进行筛选后,所述待评估数据表中满足筛选条件的探查字段的记录值的总和;针对所述数据格式有效率,通过得到对应的实测值,其中,为数据格式有效率,S
f
为基于所述元数据表设定的,所述待评估数据表中参与数据格式有效率探查的字段集合,为在以格式约束规则设定相应正则表达式进行筛选后,所述待评估数据表中的探查字段中满足筛选条件的记录值的总和;针对所述数据取值有效率,通过得到对应的实测值,其中,为数据取值有效率,S
v
为基于所述元数据表设定的,所述待评估数据表中参与数据取值有效率探查的字段集合,为在以取值约束规则,或取值范围设定由预设操作的组合条件进行筛选后,所述待评估数据表中的探查字段中满足筛选条件的记录值的总和,所述预设操作包括比较不等式、in、between中的至少一种;针对所...

【专利技术属性】
技术研发人员:张庆乐赵海兴赵子墨张帆申传旺邱阳
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1