当前位置: 首页 > 专利查询>清华大学专利>正文

一种预测结果驱动的数据修复方法技术

技术编号:18783812 阅读:65 留言:0更新日期:2018-08-29 06:58
本发明专利技术实施例提供了一种数据修复方法及系统,包括:在待修复数据点的每个子空间中,获取所述待修复数据点在原始数据库中的K近邻数据点,并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点;分别用每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到多个第二数据点;将每个第二数据点输入训练好的预设预测模型得到预测结果,若判断获知所述预测结果正确,则将所述第二数据点作为所述待修复数据点修复好的数据点。在进行数据修复的同时加入了预测模型验证的环节,避免修复好的数据在进行数据分析时出现错误。

【技术实现步骤摘要】
一种预测结果驱动的数据修复方法
本专利技术实施例涉及计算机数据管理
,更具体地,涉及一种预测结果驱动的数据修复方法。
技术介绍
在数据分析的过程中,往往要对数据进行建模以对未来数据的变化趋势或者类别进行预测。如传感器记录了连续几个月的温度数据,若想预测接下来某一天或连续某几天的温度变化,需要将数据建模后进行预测。再如人口普查中,可能需要根据年龄、性别、就职单位、工作年限等信息对收入区间进行预测。然而在数据的产生、收集、转换的生命周期中,可能会因为种种原因产生多种多样的错误。例如,在统计人口普查的数据时,统计人员多输入一个0,即可将年龄56岁变成560岁。再如传感器电量不足或者受温度或湿度的扰动时,记录的数据有可能非常不准确。包含错误的数据往往会对预测结果产生严重的影响。为了消除这种影响,学术界和工业界也提出了很多种处理错误数据的方法。其中最简单也是应用最普遍的方法就是删除法,即将包含错误的数据直接删除。显然对于被预测错误的新数据,是不能将其直接删除的。另一类处理方法旨在对错误数据进行修复。这一方法又分为两大类,基于规则的修复和基于统计结果的修复。第一类利用数据专家给出的属性依赖规则,通过检测规则冲突,确定需要修复的属性,并将其根据其他符合规则的数据点值进行数值上的修复,数据点即所说的数据点。另一类利用数据分布规律的统计,对包含错误的数据进行修复,使得包含错误的数据修复后的结果,在每一维属性上均符合原有数据的分布,且不为分布异常点。但是,以上两种对错误数据的修复方式,都未曾考虑到之后建模与预测的数据分析步骤。即使修复后的数据符合原数据库中的规则或符合原有数据的统计分布,修复后的数据分析(即预测)结果有可能仍然是错误的。
技术实现思路
本专利技术实施例提供了一种克服上述问题或者至少部分地解决上述问题的数据修复方法及系统。一方面本专利技术实施例提供了一种数据修复方法,所述方法包括:在待修复数据点的每个子空间中,获取所述待修复数据点在原始数据库中的K近邻数据点,并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点,由所述待修复数据点在所有子空间中的第一数据点构成第一数据点集合;分别利用所述第一数据点集合中每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到多个第二数据点,由所述多个第二数据点构成第二数据点集合;将所述第二数据点集合中的每个第二数据点输入训练好的预设预测模型得到预测结果,若判断获知所述预测结果正确,则将所述第二数据点作为所述待修复数据点的修复好的数据点,由所述待修复数据点的所有修复好的数据点对应的多个第一数据点构成第三数据点集合。进一步地,所述在待修复数据点的每个子空间中,获取所述待修复数据点的K近邻数据点,具体包括:在所述待修复数据点的每个子空间中,获取所述待修复数据点与所述原始数据库中各点之间的距离,并按照与所述待修复数据点之间的距离由小到大选取K个所述原始数据库中的数据点作为所述K近邻数据点。进一步地,所述方法还包括:建立所述预设预测模型,并利用所述原始数据库中的数据点对所述预设预测模型进行训练,得到所述训练好的预设预测模型。进一步地,所述方法还包括:对所述第三数据点集合中的多个第一数据点进行筛选,将对所述待修复数据修改最小的第一数据点作为最优第一数据点;利用所述最优第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到所述待修复数据点的修复好的数据点。进一步地,所述对所述第三数据点集合中的多个第一数据点进行筛选,将对所述待修复数据修改最小的第一数据点作为最优第一数据点,具体包括:获取所述第三数据点集合中每个第一数据点在对应的子空间中属性的数量,并筛选出在对应的子空间中属性数量最少的第一数据点作为候选最优第一数据点;获取每个候选最优第一数据点与所述待修复数据点在对应的子空间中的距离,将与所述待修复数据点在对应的子空间中距离最小的候选最优第一数据点作为所述最优第一数据点。另一方面本专利技术实施例提供了一种数据修复系统,所述系统包括:第一数据集获取模块,用于在待修复数据点的每个子空间中,获取所述待修复数据点在原始数据库中的K近邻数据点,并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点,由所述待修复数据点在所有子空间中的第一数据点构成第一数据点集合;数据属性替换模块,用于分别利用所述第一数据点集合中每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到多个第二数据点,由所述多个第二数据点构成第二数据点集合;预测结果检验模块,用于将所述第二数据点集合中的每个第二数据点输入预设数据预测模型得到预测结果,若判断获知所述预测结果正确,则将所述第二数据点作为所述待修复数据点修复好的数据点,由所述待修复数据点的所有修复好的数据点对应的多个第一数据点构成第三数据点集合。第三方面本专利技术实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述方法。第四方面本专利技术实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述方法。本专利技术实施例提供的一种本专利技术实施例提供的一种数据修复方法及系统,通过用待修复数据点在全部子空间上的小于预设距离的K近邻数据点对待修复数据点进行修复,并利用训练好的预设预测模型对修复后的待修复数据点进行预测,将预测结果为正确的修复后的待修复数据点认定为修复好的待修复数据点,在进行数据修复的同时加入了预测模型验证的环节,避免修复好的数据在进行数据分析时出现错误。附图说明图1为本专利技术实施例提供的一种数据修复方法的流程图;图2为本专利技术实施例中实例的示意图;图3为本专利技术实施例提供的一种数据修复系统的结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的一种数据修复方法的流程图,如图1所示,所述方法包括:S1,在待修复数据点的每个子空间中,获取所述待修复数据点在原始数据库中的K近邻数据点,并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点,由所述待修复数据点在所有子空间中的第一数据点构成第一数据点集合;S2,分别利用所述第一数据点集合中每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到多个第二数据点,由所述多个第二数据点构成第二数据点集合;S3,将所述第二数据点集合中的每个第二数据点输入训练好的预设预测模型得到预测结果,若判断获知所述预测结果正确,则将所述第二数据点作为所述待修复数据点修复好的数据点,由所述待修复数据点的所有修复好的数据点对应的多个第一数据点构成第三数据点集合。在步骤S1中,原始数据库中的每个数据点都为结构化数据,原始数据库中的所有数据点均为无错误数据。待修复数本文档来自技高网
...

【技术保护点】
1.一种数据修复方法,其特征在于,所述方法包括:在待修复数据点的每个子空间中,获取所述待修复数据点在原始数据库中的K近邻数据点,并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点,由所述待修复数据点在所有子空间中的第一数据点构成第一数据点集合;分别利用所述第一数据点集合中每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到多个第二数据点,由所述多个第二数据点构成第二数据点集合;将所述第二数据点集合中的每个第二数据点输入训练好的预设预测模型得到预测结果,若判断获知所述预测结果正确,则将所述第二数据点作为所述待修复数据点的修复好的数据点,由所述待修复数据点的所有修复好的数据点对应的多个第一数据点构成第三数据点集合。

【技术特征摘要】
1.一种数据修复方法,其特征在于,所述方法包括:在待修复数据点的每个子空间中,获取所述待修复数据点在原始数据库中的K近邻数据点,并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点,由所述待修复数据点在所有子空间中的第一数据点构成第一数据点集合;分别利用所述第一数据点集合中每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到多个第二数据点,由所述多个第二数据点构成第二数据点集合;将所述第二数据点集合中的每个第二数据点输入训练好的预设预测模型得到预测结果,若判断获知所述预测结果正确,则将所述第二数据点作为所述待修复数据点的修复好的数据点,由所述待修复数据点的所有修复好的数据点对应的多个第一数据点构成第三数据点集合。2.根据权利要求1所述方法,其特征在于,所述在待修复数据点的每个子空间中,获取所述待修复数据点的K近邻数据点,具体包括:在所述待修复数据点的每个子空间中,获取所述待修复数据点与所述原始数据库中各点之间的距离,并按照与所述待修复数据点之间的距离由小到大选取K个所述原始数据库中的数据点作为所述K近邻数据点。3.根据权利要求1所述方法,其特征在于,所述方法还包括:建立所述预设预测模型,并利用所述原始数据库中的数据点对所述预设预测模型进行训练,得到所述训练好的预设预测模型。4.根据权利要求1所述方法,其特征在于,所述方法还包括:对所述第三数据点集合中的多个第一数据点进行筛选,将对所述待修复数据修改最小的第一数据点作为最优第一数据点;利用所述最优第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性,得到所述待修复数据点的修复好的数据点。5.根据权利要求4所述方法,其特征在于,所述对所述第三数据点集...

【专利技术属性】
技术研发人员:王建民宋韶旭祁丹蕊
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1