System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据清洗方法、装置及计算机可读存储介质制造方法及图纸_技高网

数据清洗方法、装置及计算机可读存储介质制造方法及图纸

技术编号:41263947 阅读:3 留言:0更新日期:2024-05-11 09:21
本发明专利技术涉及数据清洗技术领域,公开了一种数据清洗方法、装置及计算机可读存储介质。其中,该方法包括:对目标数据集进行加载;对加载后的目标数据集进行属性字段切分得到属性列表;按照数据分析算法对属性列表中每列的属性数据进行数据处理,并根据数据处理结果得到每列对应的单个属性的清洗规则;将所有列各自对应的单个属性的清洗规则进行数据聚合,生成整个属性列表的清洗规则;根据整个属性列表的清洗规则执行数据清洗。由此,动态生成清洗规则,从而在后续清洗过程中达到较高的清洗目的。并且,针对数据处理量大的问题,可以对数据项列进行切分处理,从而加快数据清洗的速度,提高数据清洗的效率。

【技术实现步骤摘要】

本专利技术涉及数据清洗,尤其涉及一种数据清洗方法、装置及计算机可读存储介质


技术介绍

1、数据清洗(data cleaning)是从记录集、数据库表或数据库中检测和纠正(或删除)损坏或不准确的记录的过程,是指识别数据的不完整、不正确、不准确或不相关部分,然后替换、修改、或删除脏数据或粗数据。数据清洗可以与数据加工工具交互执行,也可以通过脚本进行批处理。

2、清洗后,一个数据集应该与系统中其他类似的数据集保持一致。检测到或删除的不一致可能最初是由用户输入错误、传输或存储中的损坏或不同存储中类似实体的不同数据字典定义引起的。数据清理与数据确认(data validation)的不同之处在于,数据确认几乎总是意味着数据在输入时被系统拒绝,并在输入时执行,而不是执行于批量数据。

3、数据清洗不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清洗软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式集成数据。

4、现有技术体系中,数据清洗主要采用先预设数据清洗策略,然后再数据清洗过程中发现问题,调整数据清洗策略。对于小批量的数据而言,通过简单构建采集策略,准确率或许还能达到比较高的指标。但是对于大批量的数据而言,这样的方式不再适用。

5、总的来讲,现有技术至少具有以下缺点:

6、1)数据不清晰,不能良好的把控数据细节

7、过往数据清洗的处理方式,多采用预先定义清洗策略的方式,被动的按照规则处理数据,等出现很多异常数据后,才想起来对清洗策略进行适当的调整。

8、2)手段后置,解决问题不灵活

9、在发现数据清洗的问题后,往往需要通过调配清洗执行策略的方式对相关的应用进行重新执行。如果没有全链路的监控,中间预设的采集策略有可能因为策略配置错误或配置无效,导致数据清洗新问题的发生。


技术实现思路

1、本专利技术提供了一种数据清洗方法、装置及计算机可读存储介质,能够解决现有技术中的问题。

2、本专利技术提供了一种数据清洗方法,其中,该方法包括:

3、对目标数据集进行加载;

4、对加载后的目标数据集进行属性字段切分得到属性列表;

5、按照数据分析算法对属性列表中每列的属性数据进行数据处理,并根据数据处理结果得到每列对应的单个属性的清洗规则;

6、将所有列各自对应的单个属性的清洗规则进行数据聚合,生成整个属性列表的清洗规则;

7、根据整个属性列表的清洗规则执行数据清洗。

8、优选地,目标数据集中的数据可以包括结构化的数据库数据和半结构化的数据文件。

9、优选地,按照数据分析算法对属性列表中每列的属性数据进行数据处理包括:

10、对属性列表中每列的属性数据进行空值分析、类型分析、值域分析和专用类型分析。

11、优选地,对属性列表中每列的属性数据进行空值分析包括:

12、对属性列表中每列的属性数据进行空值判断,构建数据空值分布统计,将统计结果与空值判断阀值进行比较,并根据比较结果判断每列的属性是否为空。

13、优选地,对属性列表中每列的属性数据进行类型分析包括:

14、对属性列表中每列的属性数据进行类型判断,构建类型分布统计,将统计结果与类型判断阀值进行比较,并根据比较结果判断每列的属性数据对应的属性类型。

15、优选地,对属性列表中每列的属性数据进行值域分析包括:

16、对属性列表中每列的属性数据进行值域判断,构建值域分布统计,将统计结果与值域判断阀值进行比较,并根据比较结果判断每列的属性数据对应的属性值域。

17、优选地,对属性列表中每列的属性数据进行专用类型分析包括:

18、对属性列表中每列的属性数据进行专用类型判断,构建专用类型分布统计,将统计结果与专用类型判断阀值进行比较,并根据比较结果判断每列的属性数据对应的专用类型。

19、优选地,根据数据处理结果得到每列对应的单个属性的清洗规则包括:

20、对每列的空值分析结果、类型分析结果、值域分析结果和专用类型分析结果进行聚合相加,得到每列对应的单个属性的清洗规则。

21、本专利技术还提供了一种数据清洗装置,其中,该装置包括:

22、加载模块,用于对目标数据集进行加载;

23、切分模块,用于对加载后的目标数据集进行属性字段切分得到属性列表;

24、数据处理模块,用于按照数据分析算法对属性列表中每列的属性数据进行数据处理,并根据数据处理结果得到每列对应的单个属性的清洗规则;

25、生成模块,用于将所有列各自对应的单个属性的清洗规则进行数据聚合,生成整个属性列表的清洗规则;

26、执行模块,用于根据整个属性列表的清洗规则执行数据清洗。

27、本专利技术还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,其中,所述至少一条指令由处理器加载并执行以实现上述的数据清洗方法。

28、通过上述技术方案,可以在数据清洗前,通过对目标数据集进行数据分析,对数据属性项进行发现元数据定义,动态生成清洗规则,从而在后续清洗过程中达到较高的清洗目的。针对数据处理量大的问题,可以对数据项列进行切分处理,从而加快数据清洗的速度,提高数据清洗的效率。

本文档来自技高网...

【技术保护点】

1.一种数据清洗方法,其特征在于,该方法包括:

2.根据权利要求1所述的方法,其特征在于,目标数据集中的数据可以包括结构化的数据库数据和半结构化的数据文件。

3.根据权利要求2所述的方法,其特征在于,按照数据分析算法对属性列表中每列的属性数据进行数据处理包括:

4.根据权利要求3所述的方法,其特征在于,对属性列表中每列的属性数据进行空值分析包括:

5.根据权利要求4所述的方法,其特征在于,对属性列表中每列的属性数据进行类型分析包括:

6.根据权利要求5所述的方法,其特征在于,对属性列表中每列的属性数据进行值域分析包括:

7.根据权利要求6所述的方法,其特征在于,对属性列表中每列的属性数据进行专用类型分析包括:

8.根据权利要求7所述的方法,其特征在于,根据数据处理结果得到每列对应的单个属性的清洗规则包括:

9.一种数据清洗装置,其特征在于,该装置包括:

10.一种计算机可读存储介质,所述存储介质中存储有至少一条指令,其特征在于,所述至少一条指令由处理器加载并执行以实现如权利要求1-8任一项所述的数据清洗方法。

...

【技术特征摘要】

1.一种数据清洗方法,其特征在于,该方法包括:

2.根据权利要求1所述的方法,其特征在于,目标数据集中的数据可以包括结构化的数据库数据和半结构化的数据文件。

3.根据权利要求2所述的方法,其特征在于,按照数据分析算法对属性列表中每列的属性数据进行数据处理包括:

4.根据权利要求3所述的方法,其特征在于,对属性列表中每列的属性数据进行空值分析包括:

5.根据权利要求4所述的方法,其特征在于,对属性列表中每列的属性数据进行类型分析包括:

6.根据权利要求5...

【专利技术属性】
技术研发人员:常衢通刘超刘同林余金龙佘青徐言俊黄鑫王胜
申请(专利权)人:北京机电工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1