System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据清洗预测方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种数据清洗预测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40234352 阅读:6 留言:0更新日期:2024-02-02 22:35
本申请涉及一种数据清洗预测方法、装置、电子设备及存储介质,其中,该数据清洗预测方法包括:获取待清洗数据,根据所述待清洗数据构建目标关系图谱;其中,所述目标关系图谱中包含所述待清洗数据中的实体以及实体间关系;通过训练后的图神经网络模型提取所述目标关系图谱中每个节点的目标节点表示向量,通过所述感知机模型对多个所述目标节点表示向量进行感知,预测所述待清洗数据的清洗需求。通过本申请能够更加全面和深入地理解待清洗数据中实体的关联性,进而提高对待清洗数据的清洗需求预测的准确性解决了相关技术中存在的对复杂数据的清洗需求预测准确率较低的问题。

【技术实现步骤摘要】

本申请涉及数据清洗,特别是涉及一种数据清洗预测方法、装置、电子设备及存储介质


技术介绍

1、数据清洗是数据预处理的关键步骤,用于检测和纠正数据中的错误、不一致性和缺失值。传统的数据清洗方法通常基于规则和统计信息,但对于复杂的数据关系,传统方法往往效果有限。因此,对于处理复杂数据结构和关系的需求,需要更智能、更灵活的数据清洗方法。通常,为了提高整体的数据清洗效率,可以先对待清洗数据的清洗需求进行预测,然后对具有清洗需求的数据进行清洗。

2、在传统的数据清洗预测方法中,通常采用基于规则和统计的方式来识别数据中的错误和不一致性。其中,局限性主要包含以下方面:

3、固定规则限制:传统方法主要基于预定义的规则,这些规则往往是固定的且难以适应数据关系的变化。在处理复杂数据时,固定规则可能无法捕捉到动态关系的变化,缺乏对复杂动态关系的灵活适应性,进而无法准确预测复杂数据的清洗需求,导致清洗效果受限。

4、数据关系理解有限:传统方法能够识别处理的数据关系比较简单,进而数据结构的理解能力较弱,难以处理复杂数据结构,对复杂关联关系的理解能力有限。进而无法准确预测复杂数据的清洗需求。

5、不足以应对多领域关系:传统方法在关系建模方面往往专注于单一领域,难以综合考虑多领域数据处理的需求。这导致了在涉及多领域关系时的不足,限制了其在综合数据处理中的应用。

6、针对相关技术中存在的对复杂数据的清洗需求预测准确率较低的问题,目前还没有提出有效的解决方案。


技术实现思路</b>

1、在本实施例中提供了一种数据清洗预测方法、装置、电子设备及存储介质,以解决相关技术中对复杂数据的清洗需求预测准确率较低的问题。

2、第一个方面,在本专利技术中提供了一种数据清洗预测方法,包括:

3、获取待清洗数据,根据所述待清洗数据构建目标关系图谱;其中,所述目标关系图谱中包含所述待清洗数据中的实体以及实体间关系;

4、通过训练后的图神经网络模型提取所述目标关系图谱中每个节点的目标节点表示向量,通过感知机模型对多个所述目标节点表示向量进行感知,预测所述待清洗数据的清洗需求。

5、在其中的一些实施例中,通过训练后的图神经网络模型提取所述目标关系图谱中每个节点的目标节点表示向量包括:

6、针对所述目标关系图谱中的任意节点,对所述节点的邻居信息进行聚合,根据聚合结果确定所述节点的目标节点表示向量。

7、在其中的一些实施例中,对所述节点的邻居信息进行聚合包括:

8、对所述节点的邻居节点进行随机采样,得到所述节点的目标邻居节点;

9、对所述节点的目标邻居节点的节点信息进行聚合。

10、在其中的一些实施例中,所述图神经网络模型的训练步骤包括:

11、获取样本数据,根据所述样本数据构建样本关系图谱;其中,所述样本关系图谱中包含所述样本数据中的实体以及实体间关系;

12、通过所述样本关系图谱对所述图神经网络模型进行监督训练,得到训练后的所述图神经网络模型。

13、在其中的一些实施例中,获取样本数据,根据所述样本数据构建样本关系图谱包括:

14、获取若干不同领域的子样本数据,分别根据每个所述子样本数据构建初始关系图谱;

15、通过自然语言处理技术对多个所述初始关系图谱进行融合,得到所述样本关系图谱。

16、在其中的一些实施例中,通过所述样本关系图谱对所述图神经网络模型进行监督训练,得到训练后的所述图神经网络模型包括:

17、通过梯度下降算法对所述图神经网络模型的模型参数进行调整优化,得到训练后的所述图神经网络模型。

18、在其中的一些实施例中,所述图神经网络模型的训练步骤还包括:

19、实时监测所述样本数据的动态变化,并调整所述样本数据的样本关系图谱的结构,通过调整后的所述样本关系图谱对所述图神经网络模型进行监督训练。

20、第二个方面,在本专利技术中提供了一种数据清洗预测装置,包括:

21、图谱构建模块,用于获取待清洗数据,根据所述待清洗数据构建目标关系图谱;其中,所述目标关系图谱中包含所述待清洗数据中的实体以及实体间关系;

22、感知预测模块,用于通过训练后的图神经网络模型提取所述目标关系图谱中每个节点的目标节点表示向量,通过感知机模型对多个所述目标节点表示向量进行感知,预测所述待清洗数据的清洗需求。

23、第三个方面,在本专利技术中提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述的数据清洗预测方法。

24、第四个方面,在本专利技术中提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一个方面所述的数据清洗预测方法。

25、与相关技术相比,在本专利技术提供的数据清洗预测方法中,通过图神经网络模型与领域关系图谱技术的结合,能够将复杂的待清洗数据中的实体以及实体间关系提取出来并以目标关系图谱的形式进行表示,方便对待清洗数据中的实体以及实体间关系进行分析,能够更加全面和深入地理解待清洗数据中实体的关联性,进而提高对待清洗数据的清洗需求预测的准确性,减少清洗误差。再提取目标关系图谱中节点的目标节点表示向量,并对目标节点表示向量进行感知,预测待清洗数据的清洗需求。相比于传统的应用关系数据库进行数据清晰预测的技术,本专利技术中的目标关系图谱更加注重实体自身的内容以及实体间关系,可以捕捉更加复杂的实体关联信息,解决了相关技术中存在的对复杂数据的清洗需求预测准确率较低的问题。

26、本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。

本文档来自技高网...

【技术保护点】

1.一种数据清洗预测方法,其特征在于,包括:

2.根据权利要求1所述的数据清洗预测方法,其特征在于,通过训练后的图神经网络模型提取所述目标关系图谱中每个节点的目标节点表示向量包括:

3.根据权利要求2所述的数据清洗预测方法,其特征在于,对所述节点的邻居信息进行聚合包括:

4.根据权利要求1所述的数据清洗预测方法,其特征在于,所述图神经网络模型的训练步骤包括:

5.根据权利要求4所述的数据清洗预测方法,其特征在于,获取样本数据,根据所述样本数据构建样本关系图谱包括:

6.根据权利要求4所述的数据清洗预测方法,其特征在于,通过所述样本关系图谱对所述图神经网络模型进行监督训练,得到训练后的所述图神经网络模型包括:

7.根据权利要求4所述的数据清洗预测方法,其特征在于,所述图神经网络模型的训练步骤还包括:

8.一种数据清洗预测装置,其特征在于,包括:

9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的数据清洗预测方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的数据清洗预测方法的步骤。

...

【技术特征摘要】

1.一种数据清洗预测方法,其特征在于,包括:

2.根据权利要求1所述的数据清洗预测方法,其特征在于,通过训练后的图神经网络模型提取所述目标关系图谱中每个节点的目标节点表示向量包括:

3.根据权利要求2所述的数据清洗预测方法,其特征在于,对所述节点的邻居信息进行聚合包括:

4.根据权利要求1所述的数据清洗预测方法,其特征在于,所述图神经网络模型的训练步骤包括:

5.根据权利要求4所述的数据清洗预测方法,其特征在于,获取样本数据,根据所述样本数据构建样本关系图谱包括:

6.根据权利要求4所述的数据清洗预测方法,其特征在于,通过所...

【专利技术属性】
技术研发人员:张俊祺吴永宇陈紫军张正王虎
申请(专利权)人:数据空间研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1