System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理领域,尤其是一种基于图算法的数据清洗方法、装置、设备及存储介质。
技术介绍
1、数据清洗是指在数据分析和处理过程中,对原始数据进行检查、纠正和标准化的一系列操作,以确保数据的准确性、一致性和完整性。在基于图算法的数据清洗方法中,图算法的定义可以具体化为利用图数据结构及其相关算法来识别、纠正和优化数据集中的错误、缺失和异常值等问题的技术方法。
2、现有的数据清洗方法通常基于规则、模式匹配、异常检测等原理,主要步骤包括数据质量评估、异常值检测与处理、缺失值填充、重复数据处理等。这些方法在处理简单数据和规则明确的场景下效果较好,但在面对复杂数据、关系复杂的数据集时,往往效率低下。
技术实现思路
1、为了提高数据清洗效率,本申请提供一种基于图算法的数据清洗方法、装置、设备及存储介质。
2、第一方面,本申请提供一种基于图算法的数据清洗方法,采用如下的技术方案:
3、接收待清洗的目标数据,收集所述目标数据的血缘关系信息;
4、根据所述血缘关系信息生成所述目标数据的关联图谱网络;
5、利用图算法查找所述目标数据的贴源层数据,制定所述贴源层数据的清洗规则;
6、将若干所述清洗规则存储到预设的清洗规则库中;
7、根据所述清洗规则库和所述关联图谱网络清洗所述目标数据。
8、通过上述技术方案,制定贴源层数据的清洗规则并结合关联图谱网络进行数据清洗,在面对复杂数据、关系复杂的数据集时也可以快速
9、在一个具体的可实施方案中,所述图算法包括图遍历算法和条件筛选算法,所述利用图算法查找所述目标数据的贴源层数据包括:
10、利用所述图遍历算法分析所述关联图谱网络得到分析结果;
11、根据所述分析结果制定所述贴源层数据的筛选条件;
12、利用条件筛选算法根据所述筛选条件筛选得到所述目标数据的贴源层数据。
13、通过上述技术方案,使用图算法分析关联图谱网络,找到其中关系聚集的数据段为贴源层数据,提高贴源层数据的准确性,使得清洗效率提高。
14、在一个具体的可实施方案中,所述制定所述贴源层数据的清洗规则包括:
15、根据所述贴源层数据确定规则配置内容,所述规则配置内容包括规则类型和规则内容;
16、根据所述规则配置内容制定所述贴源层数据的清洗规则。
17、通过上述技术方案,先确定清洗规则配置内容,明确规则类型和规则内容,使得清洗规则明确,提高数据清洗准确率。
18、在一个具体的可实施方案中,所述根据所述清洗规则库和所述关联图谱网络清洗所述目标数据包括:
19、利用图算法根据所述关联图谱网络找到所述贴源层数据的下游关联字段;
20、利用所述清洗规则制定所述下游关联字段的下游关联字段清洗规则;
21、将所述下游关联字段清洗规则添加到所述清洗规则库中得到目标清洗规则库;
22、根据所述目标清洗规则库清洗所述目标数据生成清洗后数据。
23、通过上述技术方案,制定贴源层数据的清洗规则并结合关联图谱网络预先建立数据清洗规则库,使得数据清洗效率提高。
24、在一个具体的可实施方案中,所述图算法包括深度优先搜索算法,所述利用图算法根据所述关联图谱网络找到所述贴源层数据的下游关联字段包括:
25、利用所述深度优先搜索算法分析所述关联图谱网络得到所述目标数据的数据关联关系;
26、根据所述数据关联关系找到所述贴源层数据的下游关联字段。
27、通过上述技术方案,利用深度优先搜索算法寻找贴源层数据的下游关联字段使得寻找结果更准确。
28、在一个具体的可实施方案中,所述目标数据包括若干目标数据段,所述根据所述目标清洗规则库清洗所述目标数据包括:
29、当接收到待清洗的目标数据段时,在所述目标清洗规则库中查找所述目标数据段的目标清洗规则;
30、根据所述清洗规则确定所述目标数据段的清洗方法;
31、根据所述清洗规则使用所述清洗方法清洗所述目标数据段;
32、当若干所述目标数据段清洗结束后生成清洗后数据。
33、通过上述技术方案,根据洗规则选择清洗方法,使用脚本或者数据清洗工具进行数据清洗,使得数据清洗效率提高。
34、在一个具体的可实施方案中,所述根据所述目标清洗规则库清洗所述目标数据生成清洗后数据之后,还包括:
35、使用数据质量检查工具对所述清洗后数据进行验证得到验证结果,判断验证结果是否为通过;
36、若验证结果为通过,则数据清洗成功;
37、反之,则数据清洗失败,重新进行数据清洗。
38、通过上述技术方案,验证清洗后数据,保证数据清洗的准确性和完整性。
39、第二方面,本申请提供一种基于图算法的数据清洗装置,采用如下技术方案:所述装置包括:
40、血缘关系信息收集模块,用于接收待清洗的目标数据,收集所述目标数据的血缘关系信息;
41、关联图谱网络生成模块,用于根据所述血缘关系信息生成所述目标数据的关联图谱网络;
42、贴源层数据处理模块,用于利用图算法查找所述目标数据的贴源层数据并制定所述贴源层数据的清洗规则;
43、清洗规则库生成模块,用于将若干所述清洗规则存储到预设的清洗规则库中;
44、数据清洗模块,用于根据所述清洗规则库和所述关联图谱网络清洗所述目标数据。
45、第三方面,本申请提供一种计算机设备,采用如下技术方案:包括存储器和处理器,存储器上存储有能够被处理器加载并执行如上述一种基于图算法的数据清洗方法的计算机程序。
46、第四方面,本申请提供一种计算机可读存储介质,采用如下技术方案:存储有能够被处理器加载并执行上述一种基于图算法的数据清洗方法的计算机程序。
47、综上所述,本申请具有以下有益技术效果:
48、(1)通过血缘关系和图算法,识别贴源层数据和下游数据的关联关系,自动生成清洗规则实现对数据的自动化清洗处理,减少了人工干预。
49、(2)利用图算法对数据关系进行分析和挖掘,可基于贴源层清洗规则快速生成后续加工链路清洗规则,在面对复杂数据、关系复杂的数据集时也可以快速清洗数据,提高数据清洗效率。
50、(3)本申请方法不依赖于特定的数据类型或领域,适用于各种类型和规模的数据集,具有较强的通用性和适用性。
本文档来自技高网...【技术保护点】
1.一种基于图算法的数据清洗方法,其特征在于,所述方法包括:
2.根据权利要求1所述方法,其特征在于,所述图算法包括图遍历算法和条件筛选算法,所述利用图算法查找所述目标数据的贴源层数据包括:
3.根据权利要求1所述方法,其特征在于,所述制定所述贴源层数据的清洗规则包括:
4.根据权利要求1所述方法,其特征在于,所述根据所述清洗规则库和所述关联图谱网络清洗所述目标数据包括:
5.根据权利要求4所述方法,其特征在于,所述图算法包括深度优先搜索算法,所述利用图算法根据所述关联图谱网络找到所述贴源层数据的下游关联字段包括:
6.根据权利要求4所述方法,其特征在于,所述目标数据包括若干目标数据段,所述根据所述目标清洗规则库清洗所述目标数据包括:
7.根据权利要求4所述方法,其特征在于,所述根据所述目标清洗规则库清洗所述目标数据生成清洗后数据之后,还包括:
8.一种基于图算法的数据清洗装置,其特征在于,所述装置包括:
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
...【技术特征摘要】
1.一种基于图算法的数据清洗方法,其特征在于,所述方法包括:
2.根据权利要求1所述方法,其特征在于,所述图算法包括图遍历算法和条件筛选算法,所述利用图算法查找所述目标数据的贴源层数据包括:
3.根据权利要求1所述方法,其特征在于,所述制定所述贴源层数据的清洗规则包括:
4.根据权利要求1所述方法,其特征在于,所述根据所述清洗规则库和所述关联图谱网络清洗所述目标数据包括:
5.根据权利要求4所述方法,其特征在于,所述图算法包括深度优先搜索算法,所述利用图算法根据所述关联图谱网络找到所述贴源层数据的下游关联字段包括:
6.根...
【专利技术属性】
技术研发人员:陈涛,郁彬,
申请(专利权)人:无锡锡银金科信息技术有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。