当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于界标的数据填补方法及装置制造方法及图纸

技术编号:24206117 阅读:42 留言:0更新日期:2020-05-20 14:44
本发明专利技术实施例提供一种基于界标的数据填补方法及装置,该方法包括:获取待填补的原始数据,所述原始数据包括完整数据行和缺失数据行;将所述原始数据中的完整数据行输入至预设的生成对抗网络模型,输出完整数据行的界标;根据完整数据行的界标和完整数据行,对缺失数据行进行填补,得到填补后的缺失数据行;其中,所述生成对抗网络模型,根据多个完整数据行样本和对应的界标标签进行训练后得到。该方法能够得到数据行在值空间的准确界标,综合考虑到了界标数据和无缺失的完整数据,在数据缺少近邻点的情况下,也能进行填补。另外,填补数据部分依据真实的完整数据,能够有效避免神经网络的过拟合问题。

A data filling method and device based on landmark

【技术实现步骤摘要】
一种基于界标的数据填补方法及装置
本专利技术涉及计算机
,尤其涉及一种基于界标的数据填补方法及装置。
技术介绍
随着信息技术的发展,大数据时代的来临,人们在信息处理中面对的数据量也在飞速增加。而在大数据的背景下,随着数据量的增加,数据采集与数据挖掘已经成为信息技术中非常重要的一环,而这其中,数据质量是保证大数据情况下,数据挖掘技术能够顺利进行的保障。数据质量问题存在于数据的方方面面,包括数据缺失、数据错漏、数据异构等,产生这些数据质量的原因有很多,例如工业数据传感器在采集过程中会由于传感器的故障导致存在数据缺失的问题。数据质量问题会导致后续的数据挖掘、数据分析等步骤出现错误。在数据填补领域,现有方法主要分为两大类:根据传统方法基于一定的规则或特性对数据进行填补和基于深度学习或神经网络对数据进行填补。目前,数据填补领域的方法有以下不足:根据传统方法基于一定的规则或特性对数据进行填补,这类方法都是针对特定的领域中的数据,具有一定的领域局限性,同时在数据缺少近邻点的情况下,填补的效果不佳。基于深度学习或神经网络对数据进行填补,这类方法存本文档来自技高网...

【技术保护点】
1.一种基于界标的数据填补方法,其特征在于,包括:/n获取待填补的原始数据,所述原始数据包括完整数据行和缺失数据行;/n将所述原始数据中的完整数据行输入至预设的生成对抗网络模型,输出完整数据行的界标;/n根据完整数据行的界标和完整数据行,对缺失数据行进行填补,得到填补后的缺失数据行;/n其中,所述生成对抗网络模型,根据多个完整数据行样本和对应的界标标签进行训练后得到。/n

【技术特征摘要】
1.一种基于界标的数据填补方法,其特征在于,包括:
获取待填补的原始数据,所述原始数据包括完整数据行和缺失数据行;
将所述原始数据中的完整数据行输入至预设的生成对抗网络模型,输出完整数据行的界标;
根据完整数据行的界标和完整数据行,对缺失数据行进行填补,得到填补后的缺失数据行;
其中,所述生成对抗网络模型,根据多个完整数据行样本和对应的界标标签进行训练后得到。


2.根据权利要求1所述的基于界标的数据填补方法,其特征在于,所述根据完整数据行的界标和完整数据行,对缺失数据行进行填补,包括:
根据完整数据行的界标和完整数据行在值空间的分布,建立kd树结构;
在kd树中找到缺失数据在值空间的多个临界点;
根据所述多个临界点,对缺失数据行进行填补。


3.根据权利要求2所述的基于界标的数据填补方法,其特征在于,所述根据所述多个临界点,对缺失数据行进行填补,包括:
根据所述多个临界点,和预设的距离权重,对缺失数据行进行填补。


4.根据权利要求1所述的基于界标的数据填补方法,其特征在于,将所述原始数据中的完整数据行输入至预设的生成对抗网络模型,包括:
将所述完整数据行依次输入至所述生成对抗网络模型生成器的卷积层、全连接层和反卷积层;
从生成器的反卷积层输出完整数据行在值空间以预设间隔分布的多个界标。


5.根据权利要求1所述的基于界标的数据填补方法,其特征在于,所述将所述原始数据中的完整数据行输入至预设的生成对抗网络模型之前,还包括:
获取多个与待填补原始数据类型相同的完整数据行,并设置对应的界标标签;
将每个完整数据行和对应的界标标签作为一个训练样本,得到...

【专利技术属性】
技术研发人员:宋韶旭方晨光王建民
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1