一种预测结果驱动的数据修复方法技术

技术编号：18783812 阅读：65 留言：0更新日期：2018-08-29 06:58

本发明专利技术实施例提供了一种数据修复方法及系统，包括：在待修复数据点的每个子空间中，获取所述待修复数据点在原始数据库中的K近邻数据点，并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点；分别用每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性，得到多个第二数据点；将每个第二数据点输入训练好的预设预测模型得到预测结果，若判断获知所述预测结果正确，则将所述第二数据点作为所述待修复数据点修复好的数据点。在进行数据修复的同时加入了预测模型验证的环节，避免修复好的数据在进行数据分析时出现错误。

全部详细技术资料下载

【技术实现步骤摘要】
一种预测结果驱动的数据修复方法
本专利技术实施例涉及计算机数据管理
，更具体地，涉及一种预测结果驱动的数据修复方法。
技术介绍
在数据分析的过程中，往往要对数据进行建模以对未来数据的变化趋势或者类别进行预测。如传感器记录了连续几个月的温度数据，若想预测接下来某一天或连续某几天的温度变化，需要将数据建模后进行预测。再如人口普查中，可能需要根据年龄、性别、就职单位、工作年限等信息对收入区间进行预测。然而在数据的产生、收集、转换的生命周期中，可能会因为种种原因产生多种多样的错误。例如，在统计人口普查的数据时，统计人员多输入一个0，即可将年龄56岁变成560岁。再如传感器电量不足或者受温度或湿度的扰动时，记录的数据有可能非常不准确。包含错误的数据往往会对预测结果产生严重的影响。为了消除这种影响，学术界和工业界也提出了很多种处理错误数据的方法。其中最简单也是应用最普遍的方法就是删除法，即将包含错误的数据直接删除。显然对于被预测错误的新数据，是不能将其直接删除的。另一类处理方法旨在对错误数据进行修复。这一方法又分为两大类，基于规则的修复和基于统计结果的修复。第一类利用数据专家给出的属性依赖规则，通过检测规则冲突，确定需要修复的属性，并将其根据其他符合规则的数据点值进行数值上的修复，数据点即所说的数据点。另一类利用数据分布规律的统计，对包含错误的数据进行修复，使得包含错误的数据修复后的结果，在每一维属性上均符合原有数据的分布，且不为分布异常点。但是，以上两种对错误数据的修复方式，都未曾考虑到之后建模与预测的数据分析步骤。即使修复后的数据符合原数据库中的规则或符合原...

【技术保护点】
1.一种数据修复方法，其特征在于，所述方法包括：在待修复数据点的每个子空间中，获取所述待修复数据点在原始数据库中的K近邻数据点，并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点，由所述待修复数据点在所有子空间中的第一数据点构成第一数据点集合；分别利用所述第一数据点集合中每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性，得到多个第二数据点，由所述多个第二数据点构成第二数据点集合；将所述第二数据点集合中的每个第二数据点输入训练好的预设预测模型得到预测结果，若判断获知所述预测结果正确，则将所述第二数据点作为所述待修复数据点的修复好的数据点，由所述待修复数据点的所有修复好的数据点对应的多个第一数据点构成第三数据点集合。

【技术特征摘要】
1.一种数据修复方法，其特征在于，所述方法包括：在待修复数据点的每个子空间中，获取所述待修复数据点在原始数据库中的K近邻数据点，并将所述K近邻数据点中小于预设距离的K近邻数据点作为第一数据点，由所述待修复数据点在所有子空间中的第一数据点构成第一数据点集合；分别利用所述第一数据点集合中每个第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性，得到多个第二数据点，由所述多个第二数据点构成第二数据点集合；将所述第二数据点集合中的每个第二数据点输入训练好的预设预测模型得到预测结果，若判断获知所述预测结果正确，则将所述第二数据点作为所述待修复数据点的修复好的数据点，由所述待修复数据点的所有修复好的数据点对应的多个第一数据点构成第三数据点集合。2.根据权利要求1所述方法，其特征在于，所述在待修复数据点的每个子空间中，获取所述待修复数据点的K近邻数据点，具体包括：在所述待修复数据点的每个子空间中，获取所述待修复数据点与所述原始数据库中各点之间的距离，并按照与所述待修复数据点之间的距离由小到大选取K个所述原始数据库中的数据点作为所述K近邻数据点。3.根据权利要求1所述方法，其特征在于，所述方法还包括：建立所述预设预测模型，并利用所述原始数据库中的数据点对所述预设预测模型进行训练，得到所述训练好的预设预测模型。4.根据权利要求1所述方法，其特征在于，所述方法还包括：对所述第三数据点集合中的多个第一数据点进行筛选，将对所述待修复数据修改最小的第一数据点作为最优第一数据点；利用所述最优第一数据点在对应的子空间中的属性替换所述待修复数据在所述对应的子空间中的属性，得到所述待修复数据点的修复好的数据点。5.根据权利要求4所述方法，其特征在于，所述对所述第三数据点集...

【专利技术属性】
技术研发人员：王建民，宋韶旭，祁丹蕊，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人