System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据,具体提供一种动态配置的数据质量评价方法及装置。
技术介绍
1、数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。在不同的业务场景中,数据消费者对数据质量的需要不尽相同,有些人主要关注数据的准确性和一致性,另外一些人则关注数据的实时性和相关性。因此,只要数据能满足使用目的,就可以说数据质量符合要求。
2、现有的数据质量评估大部分是基于数据本身的好坏进行定向评估,例如针对业务数据在六大特性,即及时性、一致性、唯一性、完整性、有效性及准确性下的检测结果情况进行分析从而得出数据质量好坏的结论,这种方式可以很快的定位到问题数据,即哪些数据中的哪些条目是不符合质量规则标准的,也可以清楚的将数据的问题暴露出来。但是此种方法无法通过一个合理的分数去展现数据整体的质量的情况,也无法区分不同维度在数据质量检查过程中的影响系数及重要程度,所以存在一定的局限性。
技术实现思路
1、本专利技术是针对上述现有技术的不足,提供一种实用性强的动态配置的数据质量评价方法。
2、本专利技术进一步的技术任务是提供一种设计合理,安全适用的动态配置的数据质量评价装置。
3、本专利技术解决其技术问题所采用的技术方案是:
4、一种动态配置的数据质量评价方法,具有如下步骤:
5、s1、数据质量计算规则应根据业务数据的综合需求,定义数据质量控制的标准和规范,进而定义、监控和报告数据质量水平;
6、s2
7、s3、数据质量检测维度评分标准;
8、s4、数据资源综合评分标准;
9、s5、评分计算规则说明。
10、进一步的,在步骤s1中,质量维度是数据的可测量特性,是衡量质量规则的基础,用来定义数据质量要求,包含数据的唯一性、完整性、一致性、及时性和有效性;
11、所述质量维度为完整性时,检测字段为所有字段,完整性是指是否存在所有必要的数据,数据集是否包含所有列记录,包括字段空值校验和字段空字符串校验;
12、所述质量维度为唯一性时,检测字段为唯一性字段,唯一性是指数据表内的任何记录不重复出现,数据表内的实体有唯一性;
13、所述质量维度为一致性时,检测字段为除主键外的所有字段,一致性指确保数据值在数据表内之间表达的相符程度,包含单表字段值一致性比较、单表字段统计值一致性比较;
14、所述质量维度为及时性时,检测字段为数据加载时间,及时性是指数据发生变化的频率与数据的汇聚时间或上报时间;
15、所述质量维度为有效性时,检测字段为所有字段,对于数据的值、格式要求符合数据定义或业务定义的要求。
16、进一步的,在步骤s2中,计算各质量检测规则得分最终得出质量维度得分,最终通过计算公式得出数据资源的最终得分。
17、进一步的,在步骤s3中,规则质量维度为完整性时,评分标准为存在空值、空字符串的字段的记录标识为问题行,计算公式为:∑(1-问题数据行数/检测行数*100)*权重;
18、唯一性评分标准为:计算数据表中存在的重复记录,计算公式为:∑(1-重复数据行数/检测行数*100)*权重;
19、一致性评分标准为:通过对目标字段配置一致性检测规则,标记与检测规则不相符的问题行,并得出问题数据行数,计算公式为:∑(1-问题数据行数/检测行数*100)*权重。
20、进一步的,及时性评分标准为:在要求规定时间内对数进行更新,计算公式为:如满足则得分,如未满足则不得分;
21、有效性评分标准为:配置有效性规则检测目标字段有效性,标记问题行,并得出问题数据行数,计算公式为:∑(1-问题数据行数/检测行数*100)*权重。
22、进一步的,在步骤s4中,用户自定义配置规则维度,权重变化应随综合评分标准进行变化,每个维度需按照自身维度的占比计算出实际权重;
23、实际权重计算公式为:∑当前权重/所选权重累加值;
24、评分公式为:∑(唯一性总分*唯一性实际权重)+(完整性总分*完整性实际权重)+(有效性总分*有效性实际权重)+(及时性总分*及时性实际权重)+(一致性总分*一致性实际权重)。
25、进一步的,在步骤s5中,进一步包括:
26、(1) 数据资源全量数据评估:
27、依据当次评估综合得分为准;
28、(2) 数据资源增量数据评估:
29、将数据资源的每次增量评估得分按照检测数据量比例计算评估分值,之后将计算后得分累加得出该数据资源的最终得分,公式如下:数据资源最终评分=[数据检测量1/(数据检测量1+ +…+数据检测量n)*除及时性外得分1+…+数据检测量n/(数据检测量1+ +…+数据检测量n)*除及时性外得分n]+(及时性平均分)。
30、一种动态配置的数据质量评价装置,包括:至少一个存储器和至少一个处理器;
31、所述至少一个存储器,用于存储机器可读程序;
32、所述至少一个处理器,用于调用所述机器可读程序,执行动态配置的数据质量评价装置。
33、本专利技术的一种动态配置的数据质量评价方法及装置和现有技术相比,具有以下突出的有益效果:
34、本专利技术数据质量检测流程化,定义多套标准的检测流程去对不同的数据及性能质量评估,可以更有效地获得数据质量的实际情况。
35、可调整的权重,每个评分模板都可以动态的设置维度及规则的权重,可以更好的展现出不同业务数据在某一个领域的质量优劣情况。
36、更宏观的质量情况体现,可以更加具体且整体的去分析某一个体或者某个领域的数据质量情况。
37、不同维度的评分计算规则及权重评分规则,针对不同的维度的数据质量侧重点创建不同的质量维度计算体系。
38、全量数据及增量数据的评分模式:支持多种数据业务场景,实现不同的数据质量评分计算规则,满足数据质量评估个性化需求。
本文档来自技高网...【技术保护点】
1.一种动态配置的数据质量评价方法,其特征在于,具有如下步骤:
2.根据权利要求1所述的一种动态配置的数据质量评价方法,其特征在于,在步骤S1中,质量维度是数据的可测量特性,是衡量质量规则的基础,用来定义数据质量要求,包含数据的唯一性、完整性、一致性、及时性和有效性;
3.根据权利要求2所述的一种动态配置的数据质量评价方法,其特征在于,在步骤S2中,计算各质量检测规则得分最终得出质量维度得分,最终通过计算公式得出数据资源的最终得分。
4.根据权利要求3所述的一种动态配置的数据质量评价方法,其特征在于,在步骤S3中,规则质量维度为完整性时,评分标准为存在空值、空字符串的字段的记录标识为问题行,计算公式为:∑(1-问题数据行数/检测行数*100)*权重;
5.根据权利要求4所述的一种动态配置的数据质量评价方法,其特征在于,及时性评分标准为:在要求规定时间内对数进行更新,计算公式为:如满足则得分,如未满足则不得分;
6.根据权利要求5所述的一种动态配置的数据质量评价方法,其特征在于,在步骤S4中,用户自定义配置规则维度,权重变
7.根据权利要求6所述的一种动态配置的数据质量评价方法,其特征在于,在步骤S5中,进一步包括:
8.一种动态配置的数据质量评价装置,其特征在于,包括:至少一个存储器和至少一个处理器;
...【技术特征摘要】
1.一种动态配置的数据质量评价方法,其特征在于,具有如下步骤:
2.根据权利要求1所述的一种动态配置的数据质量评价方法,其特征在于,在步骤s1中,质量维度是数据的可测量特性,是衡量质量规则的基础,用来定义数据质量要求,包含数据的唯一性、完整性、一致性、及时性和有效性;
3.根据权利要求2所述的一种动态配置的数据质量评价方法,其特征在于,在步骤s2中,计算各质量检测规则得分最终得出质量维度得分,最终通过计算公式得出数据资源的最终得分。
4.根据权利要求3所述的一种动态配置的数据质量评价方法,其特征在于,在步骤s3中,规则质量维度为完整性时,评分标准为存在空值、空字符串的字段的记录标识为问题行,计算...
【专利技术属性】
技术研发人员:刘晓,张峰,李照川,王冠军,辛卫民,李宗硕,周秀强,陶建华,
申请(专利权)人:浪潮软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。