一种基于图算法的数据清洗方法、装置、设备及存储介质制造方法及图纸

技术编号:44824145 阅读:26 留言:0更新日期:2025-03-28 20:14
本申请涉及一种基于图算法的数据清洗方法、装置、设备及存储介质,涉及数据处理领域。其中方法包括:接收待清洗的目标数据,收集目标数据的血缘关系信息;根据血缘关系信息生成目标数据的关联图谱网络;利用图算法查找目标数据的贴源层数据,制定贴源层数据的清洗规则;将若干清洗规则存储到预设的清洗规则库中;根据清洗规则库和关联图谱网络清洗目标数据。本申请的技术效果是:提高数据清洗效率。

【技术实现步骤摘要】

本申请涉及数据处理领域,尤其是一种基于图算法的数据清洗方法、装置、设备及存储介质


技术介绍

1、数据清洗是指在数据分析和处理过程中,对原始数据进行检查、纠正和标准化的一系列操作,以确保数据的准确性、一致性和完整性。在基于图算法的数据清洗方法中,图算法的定义可以具体化为利用图数据结构及其相关算法来识别、纠正和优化数据集中的错误、缺失和异常值等问题的技术方法。

2、现有的数据清洗方法通常基于规则、模式匹配、异常检测等原理,主要步骤包括数据质量评估、异常值检测与处理、缺失值填充、重复数据处理等。这些方法在处理简单数据和规则明确的场景下效果较好,但在面对复杂数据、关系复杂的数据集时,往往效率低下。


技术实现思路

1、为了提高数据清洗效率,本申请提供一种基于图算法的数据清洗方法、装置、设备及存储介质。

2、第一方面,本申请提供一种基于图算法的数据清洗方法,采用如下的技术方案:

3、接收待清洗的目标数据,收集所述目标数据的血缘关系信息;

4、根据所述血缘关系信息生成所述目本文档来自技高网...

【技术保护点】

1.一种基于图算法的数据清洗方法,其特征在于,所述方法包括:

2.根据权利要求1所述方法,其特征在于,所述图算法包括图遍历算法和条件筛选算法,所述利用图算法查找所述目标数据的贴源层数据包括:

3.根据权利要求1所述方法,其特征在于,所述制定所述贴源层数据的清洗规则包括:

4.根据权利要求1所述方法,其特征在于,所述根据所述清洗规则库和所述关联图谱网络清洗所述目标数据包括:

5.根据权利要求4所述方法,其特征在于,所述图算法包括深度优先搜索算法,所述利用图算法根据所述关联图谱网络找到所述贴源层数据的下游关联字段包括:>

6.根据权利...

【技术特征摘要】

1.一种基于图算法的数据清洗方法,其特征在于,所述方法包括:

2.根据权利要求1所述方法,其特征在于,所述图算法包括图遍历算法和条件筛选算法,所述利用图算法查找所述目标数据的贴源层数据包括:

3.根据权利要求1所述方法,其特征在于,所述制定所述贴源层数据的清洗规则包括:

4.根据权利要求1所述方法,其特征在于,所述根据所述清洗规则库和所述关联图谱网络清洗所述目标数据包括:

5.根据权利要求4所述方法,其特征在于,所述图算法包括深度优先搜索算法,所述利用图算法根据所述关联图谱网络找到所述贴源层数据的下游关联字段包括:

6.根...

【专利技术属性】
技术研发人员:陈涛郁彬
申请(专利权)人:无锡锡银金科信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1