System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据清洗规则生成方法、清洗方法、系统、设备及介质技术方案_技高网

数据清洗规则生成方法、清洗方法、系统、设备及介质技术方案

技术编号:41193933 阅读:2 留言:0更新日期:2024-05-07 22:23
本申请涉及一种数据清洗规则生成方法、清洗方法、系统、设备及介质,属于数据处理领域,其包括获取待清洗数据集,待清洗数据集包括至少一个属性字段;根据属性字段,将待清洗数据集进行划分,得到至少一个属性数据集;对每个属性数据集进行数据分析,得到每个属性数据集对应的属性清洗规则;将多个属性清洗规则进行聚合,得到数据清洗规则。本申请通过对待清洗数据集进行分析,得到更贴合待清洗数据集的数据清洗规则,具有提高数据清洗效率的效果。

【技术实现步骤摘要】

本申请涉及数据处理的,尤其是涉及一种数据清洗规则生成方法、清洗方法、系统、设备及介质


技术介绍

1、数据清洗(data cleaning)是对数据进行审查和校验的过程,目的在于删除重复信息、纠正存在的错误。数据清洗不仅仅是更正错误,还可以加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件,更正错误数据。

2、目前,数据清洗主要采用预先设定数据清洗策略,然后根据预先设定的数据清洗策略进行数据清洗,再对数据清洗过程中或者完成数据清洗后的数据再次进行检查,发现新的问题,再调整数据清洗策略。这种方式的数据清洗效率较低,需要多次调整数据清洗策略才能达到理想的数据清洗效果。

3、上述中的相关技术方案存在以下缺陷:数据清洗的效率低。


技术实现思路

1、为了改善数据清洗的效率低的问题,本申请提供了一种数据清洗规则生成方法、清洗方法、系统、设备及介质。

2、在本申请的第一方面,提供了一种数据清洗规则生成方法。该方法包括:

3、获取待清洗数据集,待清洗数据集包括至少一个属性字段;

4、根据属性字段,将待清洗数据集进行划分,得到至少一个属性数据集;

5、对每个属性数据集进行数据分析,得到每个属性数据集对应的属性清洗规则;

6、将多个属性清洗规则进行聚合,得到数据清洗规则。

7、由以上技术方案可知,根据属性字段将待清洗数据集进行划分,然后分析每一个属性数据集的数据情况,确定对应的属性清洗规则,然后将属性清洗规则进行聚合,得到与待清洗数据集的数据特性贴合的数据清洗规则,减少数据清洗规则的迭代更新,实现对数据清洗效率的提高。

8、在一种可能的实现方式中,属性清洗规则包括空值清洗规则、类型清洗规则和值域清洗规则;

9、对每个属性数据集进行数据分析,得到每个属性数据集对应的属性清洗规则,包括:

10、分析属性数据集中属性数据的空值分布情况,确定空值清洗规则;

11、分析属性数据集中属性数据的数据类型分布情况,得到类型清洗规则;

12、根据属性数据集中属性数据的值域,得到值域清洗规则。

13、由以上技术方案可知,从数据是否为空、数据的数据类型以及数据的取值范围即值域三方面入手,对属性数据集的数据特性进行分析,得到与属性数据集适配的属性清洗规则,提高对属性数据集中的数据清洗效率,进而提高待清洗数据集的数据清洗效率。

14、在一种可能的实现方式中,分析属性数据集中属性数据的空值分布情况,确定空值清洗规则,包括:

15、获取属性数据集中属性数据的空值规则和空值分布情况,空值规则表示属性数据是否不能为空值,空值分布情况表示在属性数据集中空值数据量与数据总量的比值;

16、当空值规则为不能为空值且空值分布情况低于预设的分布阈值时,将删除空值数据作为空值清洗规则,空值数据是指属性数据为空值的数据;

17、当空值规则为不能为空值且空值分布情况不低于分布阈值时,将替换空值数据作为空值清洗规则。

18、由以上技术方案可知,通过对属性数据集中的空值规则和空值分布情况进行判断,确定空值数据对属性数据集的影响,进而确定空值清洗规则,降低数据清洗对属性数据集的影响,提高空值清洗规则和属性数据集中数据特性的贴合程度。

19、在一种可能的实现方式中,分析属性数据集中属性数据的数据类型分布情况,得到类型清洗规则,包括:

20、获取属性数据集中属性数据的指定类型和数据类型分布情况,数据类型分布情况表示在属性数据集中指定类型的数据量与数据总量的比值;

21、当数据类型分布情况不低于预设的分布阈值时,将删除非指定类型的属性数据作为类型清洗规则;

22、当数据类型分布情况低于分布阈值时,将替换非指定类型的属性数据作为类型清洗规则。

23、由以上技术方案可知,通过对属性数据集中的数据类型分布情况进行判断,确定非指定类型的数据对属性数据集的影响,进而确定类型清洗规则,降低数据清洗对属性数据集的影响,提高类型清洗规则和属性数据集中数据特性的贴合程度。

24、在一种可能的实现方式中,根据属性数据集中属性数据的值域,得到值域清洗规则,包括:

25、对属性数据集中属性数据进行排序;

26、获取前第一百分比的属性数据的第一值域;

27、获取前第二百分比的属性数据的第二值域;

28、比较数据量比值和值域比值,确定值域清洗规则,数据量比值表示第一百分比和第二百分比的比值,值域比值表示第一值域和第二值域的比值。

29、由以上技术方案可知,通过对属性数据集中数据的取值情况进行判断,根据比较数据量比值和值域比值,确定某一部分数据是否与属性数据集整体的取值存在较大偏差,进而确定值域清洗规则,降低数据清洗对属性数据集的影响,提高值域清洗规则和属性数据集中数据特性的贴合程度。

30、在一种可能的实现方式中,属性清洗规则包括字典值清洗规则;

31、当属性数据集中的属性数据为字典值时,对每个属性数据集进行数据分析,得到每个属性数据集对应的属性清洗规则,包括:

32、获取属性数据集中每个属性数据的出现比例;

33、根据出现比例的差异情况,确定字典值清洗规则。

34、在本申请的第二方面,提供了一种数据清洗方法。该方法包括:

35、获取待清洗数据集;

36、根据本申请的第一方面所述的数据清洗规则生成方法,得到数据清洗规则;

37、根据所述数据清洗规则,清洗所述待清洗数据集,得到目标数据集。

38、在本申请的第三方面,提供了一种数据清洗规则生成系统。该系统包括:

39、数据获取模块,用于获取待清洗数据集,待清洗数据集包括至少一个属性字段;

40、数据划分模块,用于根据属性字段,将待清洗数据集进行划分,得到至少一个属性数据集;

41、属性规则确定模块,用于对每个属性数据集进行数据分析,得到每个属性数据集对应的属性清洗规则;

42、清洗规则确定模块,用于将多个属性清洗规则进行聚合,得到数据清洗规则。

43、在本申请的第四方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如根据本申请的第一方面或第二方面的方法。

44、在本申请的第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面或第二方面的方法。

45、综上所述,本申请包括至少一种有益技术效果:

46、根据属性字段将待清洗数据集进行划分,然后分析每一个属性数据集的数据情况,确定对应的属性清洗规则,然后将属性清洗规则进行聚合,得到与待清洗数据集的数据特性贴合的数据清洗规则本文档来自技高网...

【技术保护点】

1.一种数据清洗规则生成方法,其特征在于,包括:

2.根据权利要求1所述的数据清洗规则生成方法,其特征在于,所述属性清洗规则包括空值清洗规则、类型清洗规则和值域清洗规则;

3.根据权利要求2所述的数据清洗规则生成方法,其特征在于,所述分析所述属性数据集中属性数据的空值分布情况,确定空值清洗规则,包括:

4.根据权利要求2所述的数据清洗规则生成方法,其特征在于,所述分析所述属性数据集中属性数据的数据类型分布情况,得到类型清洗规则,包括:

5.根据权利要求2所述的数据清洗规则生成方法,其特征在于,所述根据所述属性数据集中属性数据的值域,得到值域清洗规则,包括:

6.根据权利要求2所述的数据清洗规则生成方法,其特征在于,所述属性清洗规则包括字典值清洗规则;

7.一种数据清洗方法,其特征在于,包括:

8.一种数据清洗规则生成系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至6或7中任意一项所述方法的计算机程序。p>

10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至6或7中任意一项所述方法的计算机程序。

...

【技术特征摘要】

1.一种数据清洗规则生成方法,其特征在于,包括:

2.根据权利要求1所述的数据清洗规则生成方法,其特征在于,所述属性清洗规则包括空值清洗规则、类型清洗规则和值域清洗规则;

3.根据权利要求2所述的数据清洗规则生成方法,其特征在于,所述分析所述属性数据集中属性数据的空值分布情况,确定空值清洗规则,包括:

4.根据权利要求2所述的数据清洗规则生成方法,其特征在于,所述分析所述属性数据集中属性数据的数据类型分布情况,得到类型清洗规则,包括:

5.根据权利要求2所述的数据清洗规则生成方法,其特征在于,所述根据所述属性数...

【专利技术属性】
技术研发人员:董昆赖守建
申请(专利权)人:江苏全链通信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1