【技术实现步骤摘要】
一种数据质量评估方法、设备及介质
[0001]本申请涉及计算机领域,具体涉及一种数据质量评估方法、设备及介质。
技术介绍
[0002]作为重要的信息载体,数据是一种生产要素和重要的生产力,是社会经济发展的基石,是现代社会的基础性资源和战略性资源,广泛应用于零售、电信、制造、农业、金融、农业等众多行业,产生了巨大的社会价值和产业潜力。其实际应用价值主要体现在两个重要方面:一方面,数据不仅可以帮助企业分析市场及其发展趋势用于提高企业的创新能力和核心竞争力;另一方面,还可以帮助监管部门监管和决策用于提高监管部门的服务质量和效率。
[0003]然而,很多实际情况下会存在数据不完整、数据不一致、元数据缺失、数据类型不准确、数据格式不标准、数据取值不合理、数据重复或多余、数据失效等数据质量问题。这些问题的存在将极大影响数据中蕴含信息的可靠性,从而影响数据的实际价值。因此,需要对数据质量问题进行评估分析。
技术实现思路
[0004]为了解决上述问题,本申请提出了一种数据质量评估方法,包括:
[0005]基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标;
[0006]获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值;
[0007]确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;
[0008]根据所述评估指标权重矩阵、所述评
【技术保护点】
【技术特征摘要】
1.一种数据质量评估方法,其特征在于,包括:基于预设的多个评估维度,建立数据质量评估指标体系,每个所述评估维度中包含多个评估指标;获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值;确定所述待评估数据对应的评估指标权重矩阵和评估指标选取矩阵;根据所述评估指标权重矩阵、所述评估指标选取矩阵、所述实测值,构建数据质量评估模型,以便根据所述数据质量评估模型对所述待评估数据进行数据质量评估。2.根据权利要求1所述的方法,其特征在于,基于预设的多个评估维度,建立数据质量评估指标体系,具体包括:确定预设的多个评估维度,每个所述评估维度中包含多个评估指标;确定所述评估指标的类型包括:基础评估指标和待定评估指标,所述待定评估指标基于需求得到;根据确定的所有评估指标建立数据质量评估指标体系。3.根据权利要求2所述的方法,其特征在于,所述评估维度包括:完整性评估维度、有效性评估维度、唯一性评估维度以及一致性评估维度;针对所述完整性评估维度,其中的评估指标包括:数据非空值率、属性数据非空值率;针对所述有效性评估维度,其中的评估指标包括:数据类型有效率、数据格式有效率、数据取值有效率;针对所述唯一性评估维度,其中的评估指标包括:主键数据单一率、非主键数据单一率;针对所述一致性评估维度,其中的评估指标包括:数据等值一致率、数据逻辑一致率、数据存在一致率。4.根据权利要求3所述的方法,其特征在于,获取待评估数据对应的待评估数据表和元数据表,并基于所述待评估数据表、所述元数据表的属性,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值,具体包括:获取待评估数据,并根据所述待评估数据生成待评估数据表;确定用于记录所述待评估数据表的元数据所组成的元数据表,所述元数据表包括表名、字段名、字段类型、字段长度、格式约束、取值约束、字段描述、业务定义、业务规则、创建时间、更新时间;根据所述待评估数据表的行数、字段数,以及所述元数据表的字段数,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值。5.根据权利要求4所述的方法,其特征在于,根据所述待评估数据表的行数、字段数,以及所述元数据表的字段数,确定所述待评估数据在所述数据质量评估指标体系下,各评估指标对应的实测值,具体包括:确定所述待评估数据表的行数N
r
、字段数N
c
,以及所述元数据表的字段数N
m
;针对所述数据非空值率,通过得到对应的实测值,其中,为数据非空值
率,为所述待评估数据表中,所有的探查字段中不为空的记录值的总和;针对所述属性数据非空值率,通过得到对应的实测值,其中,为属性数据非空值率,为所述元数据表中,所有的探查字段中不为空的记录值的总和;针对所述数据类型有效率,通过得到对应的实测值,其中,为数据类型有效率,为在预设的筛选条件进行筛选后,所述待评估数据表中满足筛选条件的探查字段的记录值的总和;针对所述数据格式有效率,通过得到对应的实测值,其中,为数据格式有效率,S
f
为基于所述元数据表设定的,所述待评估数据表中参与数据格式有效率探查的字段集合,为在以格式约束规则设定相应正则表达式进行筛选后,所述待评估数据表中的探查字段中满足筛选条件的记录值的总和;针对所述数据取值有效率,通过得到对应的实测值,其中,为数据取值有效率,S
v
为基于所述元数据表设定的,所述待评估数据表中参与数据取值有效率探查的字段集合,为在以取值约束规则,或取值范围设定由预设操作的组合条件进行筛选后,所述待评估数据表中的探查字段中满足筛选条件的记录值的总和,所述预设操作包括比较不等式、in、between中的至少一种;针对所...
【专利技术属性】
技术研发人员:张庆乐,赵海兴,赵子墨,张帆,申传旺,邱阳,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。