【技术实现步骤摘要】
数据清洗方法、终端设备及存储介质
[0001]本专利技术涉及数据清洗
,尤其涉及一种数据清洗方法
、
终端设备及存储介质
。
技术介绍
[0002]数据清洗(
Data Cleaning
)是指对原始数据进行处理和加工,以消除或纠正其中的错误
、
不一致性
、
缺失值和异常值等问题,使数据符合预期的标准和要求的过程
。
数据清洗是数据预处理的重要步骤之一,其目的是确保数据的质量和可靠性,为后续的数据分析
、
建模和决策提供可靠的基础
。
[0003]在相关的数据清洗方案中,通过人工编写待清洗数据对应的清洗规则,根据清洗规则对待清洗数据逐条进行清洗,从而检测并修复待清洗数据中的错误和噪声
。
然而,基于人工制定的清洗规则对待清洗数据进行清洗的方式,难以涵盖所有可能的数据情况,容易导致数据清洗质量差的技术问题
。
[0004]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术
。
技术实现思路
[0005]本专利技术实施例通过提供一种数据清洗方法
、
终端设备及计算机可读存储介质,旨在解决数据清洗质量差的技术问题
。
[0006]为实现上述目的,本专利技术实施例提供一种数据清洗方法,所述数据清洗方法包括以下:将待清洗数据输入预先训练的预测模型,并获取所述预测模型输出的预测值以及损失函数, ...
【技术保护点】
【技术特征摘要】
1.
一种数据清洗方法,其特征在于,所述数据清洗方法包括:将待清洗数据输入预先训练的预测模型,并获取所述预测模型输出的预测值以及损失函数,其中,所述待清洗数据包括标签数据和无标签数据;根据所述无标签数据对应的预测值以及所述损失函数,从所述无标签数据中选取预设数量的聚类中心;根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心;根据所述待清洗数据与所述目标聚类中心的距离,从所述待清洗数据中选定目标清洗数据,并对所述目标清洗数据进行清洗
。2.
如权利要求1所述的数据清洗方法,其特征在于,所述根据所述无标签数据对应的预测值以及所述损失函数,从所述无标签数据中选取预设数量的聚类中心的步骤,包括:根据所述无标签数据对应的预测值以及所述损失函数,确定所述无标签数据对应的梯度向量;将满足预设条件的梯度向量对应的无标签数据作为所述聚类中心
。3.
如权利要求1所述的数据清洗方法,其特征在于,所述根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心的步骤之后,包括:将剩余的所述待清洗数据划分至所述目标聚类中心所属的目标聚类;根据所述目标聚类对应的所述待清洗数据,更新所述目标聚类的所述目标聚类中心;在所述目标聚类中心收敛时,执行所述根据所述待清洗数据与所述目标聚类中心的距离,从所述待清洗数据中选定目标清洗数据,并对所述目标清洗数据进行清洗的步骤
。4.
如权利要求1所述的数据清洗方法,其特征在于,所述将剩余的所述待清洗数据划分至所述目标聚类中心所属的目标聚类的步骤之后,包括:删除所述目标聚类中与所述目标聚类中心的距离最小的所述待清洗数据
。5.
如权利要求1所述的数据清洗方法,其特征在于,所述根据剩余的所述待清洗数据与各个所述聚类中心的距离,确定剩余的所述待清洗数据对应的目标聚类中心的步骤,包括:获取剩余的所述待清洗数据在所述预测模型的全连接层的特征值,并根据所述特征值,确定剩余的所述待清洗数据与各个所述聚类中心的距离;将与所述待清洗数据的距离最小的聚类中心,作为所述待清洗数据对应的所述目标聚类中心
。6.
如权利要求1所述的数据清...
【专利技术属性】
技术研发人员:吴雨培,孟超超,
申请(专利权)人:北京阿丘科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。