数据处理方法及装置制造方法及图纸

技术编号:45070070 阅读:26 留言:0更新日期:2025-04-25 18:13
本申请提供一种数据处理方法及装置,方法包括:获取目标数据,目标数据包括至少一个缺失类和至少一个正常类,至少一个缺失类中的多个数据与至少一个正常类中的多个数据一一对应,至少一个缺失类存在数据缺失;将目标数据分别采用多种数据填充模型进行数据填充,得到每种数据填充模型对应的完整数据;采用每个完整数据对目标填充模型进行训练,得到每个完整数据对应的待测填充模型;将目标数据中至少一个缺失类中的数据和至少一个正常类中的对应数据作为每个待测填充模型的测试标准和输入,得到每个待测填充模型对应的预测准确性参数;基于预测准确性参数最高的待测填充模型确定最终的完整数据。提高目标数据中缺失数据填充的准确性。

【技术实现步骤摘要】

本申请涉及大数据,尤其涉及一种数据处理方法、数据处理装置、电子设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、随着人工智能时代的到来,很多业务的开展都离不开高质量的大数据。通过高质量的大数据,能够训练出高度精准的模型,进而通过高精准的模型实现业务的精准预测。以及,通过高质量的大数据,实现精准的数据挖掘、分析等,从而最大限度的发掘出数据的潜在价值。

2、受限于数据产生时间久远,数据采集技术不成熟,数据传输与保存不当等原因,会导致数据中存在缺失值或错误值,进而降低数据质量。为了提升数据质量,针对数据中的缺失值,通常是将缺失值所在类别的正常值取平均,得到平均值,进而将平均值作为缺失值填充于数据中。

3、但是,在一些情况下,缺失值的实际数值与同一类别的正常值之间并没有直接的关联。例如:在用户-年龄数据表中,用户a-20岁,用户b-30岁,用户c-空。用户c的年龄值缺失。各用户的年龄之间并不存在直接的关联。如果对用户a和用户b的年龄取平均,得到25岁,而用户c实际的年龄为40岁,就会导致用户c的年龄填充错误。可见,采用平均的方式进行本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述采用每个完整数据对目标填充模型进行训练,得到每个完整数据对应的待测填充模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述采用每个完整数据对目标填充模型的网络架构进行训练,包括:

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述目标数据包括多个正常类;在采用每个完整数据对目标填充模型进行训练之前,所述方法还包括:

5.根据权利要求1至3中任一项所述的方法,其特征在于,所述将所述目标数据分别采用多种数据填充模型进行数据填充,得到每...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述采用每个完整数据对目标填充模型进行训练,得到每个完整数据对应的待测填充模型,包括:

3.根据权利要求2所述的方法,其特征在于,所述采用每个完整数据对目标填充模型的网络架构进行训练,包括:

4.根据权利要求1至3中任一项所述的方法,其特征在于,所述目标数据包括多个正常类;在采用每个完整数据对目标填充模型进行训练之前,所述方法还包括:

5.根据权利要求1至3中任一项所述的方法,其特征在于,所述将所述目标数据分别采用多种数据填充模型进行数据填充,得到每种数据填充模型对应的完整数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述多种数据填充模型为决策树类的机器学习模型,所述决策树类的机器学习模型包括搜索空间和搜索策略,每种数据填充模型的搜索空间不同,搜索策略相同;所述将所述目标数据中缺失数据在正常类中的对应数据输入训练后的数据填充模型,得到填充数据,...

【专利技术属性】
技术研发人员:伍明扬
申请(专利权)人:成都开源计算生态科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1