数据清洗方法技术

技术编号:39775032 阅读:14 留言:0更新日期:2023-12-22 02:23
本发明专利技术公开了一种数据清洗方法

【技术实现步骤摘要】
数据清洗方法、终端设备及存储介质


[0001]本专利技术涉及数据清洗
,尤其涉及一种数据清洗方法

终端设备及存储介质


技术介绍

[0002]数据清洗(
Data Cleaning
)是指对原始数据进行处理和加工,以消除或纠正其中的错误

不一致性

缺失值和异常值等问题,使数据符合预期的标准和要求的过程

数据清洗是数据预处理的重要步骤之一,其目的是确保数据的质量和可靠性,为后续的数据分析

建模和决策提供可靠的基础

[0003]在相关的数据清洗方案中,通过人工编写待清洗数据对应的清洗规则,根据清洗规则对待清洗数据逐条进行清洗,从而检测并修复待清洗数据中的错误和噪声

然而,基于人工制定的清洗规则对待清洗数据进行清洗的方式,难以涵盖所有可能的数据情况,容易导致数据清洗质量差的技术问题

[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术


技术实现思路

[0005]本专利技术实施例通过提供一种数据清洗方法

终端设备及计算机可读存储介质,旨在解决数据清洗质量差的技术问题

[0006]为实现上述目的,本专利技术实施例提供一种数据清洗方法,所述数据清洗方法包括以下:将待清洗数据输入预先训练的预测模型,并获取所述预测模型输出的预测值以及损失函数,其中,所述待清洗数据包括标签数据和无标签数据;根据所述无标签数据对应的预测值以及所述损失函数,从所述无标签数据中选取预设数量的聚类中心;根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心;根据所述待清洗数据与所述目标聚类中心的距离,从所述待清洗数据中选定目标清洗数据,并对所述目标清洗数据进行清洗

[0007]可选地,所述根据所述无标签数据对应的预测值以及所述损失函数,从所述无标签数据中选取预设数量的聚类中心的步骤,包括:根据所述无标签数据对应的预测值以及所述损失函数,确定所述无标签数据对应的梯度向量;将满足预设条件的梯度向量对应的无标签数据作为所述聚类中心

[0008]所述根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心的步骤之后,包括:
将剩余的所述待清洗数据划分至所述目标聚类中心所属的目标聚类;根据所述目标聚类对应的所述待清洗数据,更新所述目标聚类的所述目标聚类中心;在所述目标聚类中心收敛时,执行所述根据所述待清洗数据与所述目标聚类中心的距离,从所述待清洗数据中选定目标清洗数据,并对所述目标清洗数据进行清洗的步骤

[0009]可选地,所述将剩余的所述待清洗数据划分至所述目标聚类中心所属的目标聚类的步骤之后,包括:删除所述目标聚类中与所述目标聚类中心的距离最小的所述待清洗数据

[0010]所述根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心的步骤,包括:获取剩余的所述待清洗数据在所述预测模型的全连接层的特征值,并根据所述特征值,确定剩余的所述待清洗数据与各个所述聚类中心的距离;将与所述待清洗数据的距离最小的聚类中心,作为所述待清洗数据对应的所述目标聚类中心

[0011]可选地,所述将待清洗数据输入预先训练的预测模型,并获取所述预测模型输出的预测值以及损失函数的步骤之前,包括:获取训练的样本数据,将所述样本数据作为节点,将所述样本数据之间的相似度作为边关系,其中,所述样本数据包括标签数据和无标签数据,所述标签数据对应的节点为标签节点,所述无标签数据对应的节点为无标签节点;根据所述节点和所述边关系构建图结构;根据所述图结构的边关系,将所述标签节点的标签信息传播至所述无标签节点;基于所述标签节点的所述标签信息和所述标签数据,构建并训练所述预测模型

[0012]可选地,所述根据所述待清洗数据与所述目标聚类中心的距离,从所述待清洗数据中选定目标清洗数据,并对所述目标清洗数据进行清洗的步骤之后,包括:获取所述预测模型对应的召回率和
/
或准确率,在所述召回率和
/
或准确率小于预设阈值时,继续执行所述将待清洗数据输入预先训练的预测模型,并获取所述预测模型输出的预测值以及损失函数的步骤;和
/
或,在所述目标清洗数据的数量小于预设清洗数量时,继续执行所述将待清洗数据输入预先训练的预测模型,并获取所述预测模型输出的预测值以及损失函数的步骤

[0013]可选地,所述获取所述预测模型对应的召回率和
/
或准确率的步骤之后,还包括:根据所述召回率和
/
或准确率,确定所述预测模型的评估结果;根据所述评估结果,更新所述预测模型的模型参数

[0014]此外,本专利技术为实现上述目的,本专利技术还提供一种终端设备,所述终端设备包括:存储器

处理器及存储在所述存储器上并可在所述处理器上运行的数据清洗程序,所述数据清洗程序被所述处理器执行时实现如上所述的数据清洗方法的步骤

[0015]此外,本专利技术为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据清洗程序,所述数据清洗程序被处理器执行时实现如上所述的数据清洗方法的步骤

[0016]本专利技术一实施例提出的一种数据清洗方法,终端设备及计算机可读存储介质,通
过将待清洗数据输入预先训练的预测模型,并获取预测模型输出的预测值以及损失函数,其中,待清洗数据包括标签数据和无标签数据,然后根据无标签数据对应的预测值以及损失函数,从无标签数据中选取预设数量的聚类中心,根据剩余的待清洗数据与各个聚类中心的距离,确定剩余的待清洗数据对应的目标聚类中心,根据待清洗数据与目标聚类中心的距离,从待清洗数据中选定目标清洗数据,并对目标清洗数据进行清洗

由于无标签数据不受任何预先定义的标签或类别限制,可以更好地反映数据的内在结构和相似性,因此以无标签数据作为初始的聚类中心进行分类,使得选定的目标清洗数据,涵盖了所有可能出现的数据情况,达成提高数据清洗质量的技术效果

附图说明
[0017]图1为本专利技术数据清洗方法的一实施例的流程示意图;图2为本专利技术数据清洗方法的第二实施例中步骤
S10
的细化流程示意图;图3为本专利技术数据清洗方法的第三实施例中步骤
S40
的细化流程示意图;图4是本专利技术实施例方案涉及的硬件运行环境的终端结构示意图

[0018]本专利技术目的的实现

功能特点及优点将结合实施例,参照附图做进一步说明

具体实施方式
[0019]应当理解,此处所描述的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种数据清洗方法,其特征在于,所述数据清洗方法包括:将待清洗数据输入预先训练的预测模型,并获取所述预测模型输出的预测值以及损失函数,其中,所述待清洗数据包括标签数据和无标签数据;根据所述无标签数据对应的预测值以及所述损失函数,从所述无标签数据中选取预设数量的聚类中心;根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心;根据所述待清洗数据与所述目标聚类中心的距离,从所述待清洗数据中选定目标清洗数据,并对所述目标清洗数据进行清洗
。2.
如权利要求1所述的数据清洗方法,其特征在于,所述根据所述无标签数据对应的预测值以及所述损失函数,从所述无标签数据中选取预设数量的聚类中心的步骤,包括:根据所述无标签数据对应的预测值以及所述损失函数,确定所述无标签数据对应的梯度向量;将满足预设条件的梯度向量对应的无标签数据作为所述聚类中心
。3.
如权利要求1所述的数据清洗方法,其特征在于,所述根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心的步骤之后,包括:将剩余的所述待清洗数据划分至所述目标聚类中心所属的目标聚类;根据所述目标聚类对应的所述待清洗数据,更新所述目标聚类的所述目标聚类中心;在所述目标聚类中心收敛时,执行所述根据所述待清洗数据与所述目标聚类中心的距离,从所述待清洗数据中选定目标清洗数据,并对所述目标清洗数据进行清洗的步骤
。4.
如权利要求1所述的数据清洗方法,其特征在于,所述将剩余的所述待清洗数据划分至所述目标聚类中心所属的目标聚类的步骤之后,包括:删除所述目标聚类中与所述目标聚类中心的距离最小的所述待清洗数据
。5.
如权利要求1所述的数据清洗方法,其特征在于,所述根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心的步骤,包括:获取剩余的所述待清洗数据在所述预测模型的全连接层的特征值,并根据所述特征值,确定剩余的所述待清洗数据与各个所述聚类中心的距离;将与所述待清洗数据的距离最小的聚类中心,作为所述待清洗数据对应的所述目标聚类中心
。6.
如权利要求1所述的数据清...

【专利技术属性】
技术研发人员:吴雨培孟超超
申请(专利权)人:北京阿丘科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1