一种对缺失数据进行恢复处理的方法技术

技术编号：11193025 阅读：76 留言：0更新日期：2015-03-25 21:38

一种对缺失数据进行恢复处理的方法，涉及一种计算机数据处理方法，该方法按照kNN规则，通过提取工业中完整的数据集，计算出缺失样本相应的k个近邻，即满足阈值条件下或者控制限下的样本，用于提取在缺失数据样本局部信息中缺失数据的相关信息。应用误差最小化准则，计算该缺失数据的近邻样本的权重。得到权值后，对相应的近邻样本进行加权重构，重构出缺失的数据点，从而完善了数据的完整性。使得计算机的运行时间大大缩短，提高了运行效率，降低了噪声的影响，提高了补值的精确度。该方法能够有效的提取工业中完整数据集中的相关信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种计算机数据处理方法，特别是涉及一种对缺失数据进行恢复处理的方法。
技术介绍
目前数据挖掘技术已经广泛的应用于医疗、化工、工业以及数理统计过程中。随着大数据时代的来临，为了从大规模数据库中提取深层次的知识和信息，数据挖掘技术逐渐成为国内外研究的热点。然而人们在收集相应的数据时，难免会遇到一些因设备故障、记录的误差或者其他的原因导致数据暂时无法获取或者遗漏的情况出现。在大多数情况下，这些缺失的数据很可能携带对数据分析或检测的重要信息，如果直接丢掉这些数据进行决策，一方面，会出现数据的不等长问题，而大部分算法不适用于不等长的数据；另一方面，包含缺失的数据集会导致数据挖掘发生混乱，从而影响最终的过程决策。目前相应的补值算法有平均值算法、 EM算法。平均值补值算法对数据分布要求较高；EM算法受初值的影响较大，不同的初值，迭代次数相差很大。因此目前还没有一种对各类缺失数据进行恢复的有效方法，找到一种方法将缺失的数据进行恢复显的尤为重要。
技术实现思路
本专利技术的目的在于提供。该方法能够有效的提取工业中完整数据集中的相关信息，按照一定的规则，求出每个缺失样本的A个近邻及相应的权值，根据局部线性可微的原理，用A个近邻进行局部加权重构，重构出缺失的数据点，从而完善了数据的完整性，提高了数据的实用性。本专利技术的目的是通过以下技术方案实现的：，所述方法包括以下过程：将不含缺失点的完整数据集作为建模数据，并称之为完备数据集；利用ANN规则计算出缺失样本相应的A个近邻，即满足阈值...

【技术保护点】
一种对缺失数据进行恢复处理的方法，其特征在于，所述方法包括以下过程：将不含缺失点的完整数据集作为建模数据，并称之为完备数据集；利用kNN规则计算出缺失样本相应的k个近邻，即满足阈值条件下或者控制限下的样本，提取缺失数据样本局部信息中缺失数据的相关信息；应用误差最小化准则，计算该缺失数据的近邻样本的权重；得到权值后，对样本进行加权重构，选取重构的缺失数据点，代替初始值，即可对缺失数据进行恢复。

【技术特征摘要】
1. 一种对缺失数据进行恢复处理的方法，其特征在于，所述方法包括w下过程：将不含缺失点的完整数据集作为建模数据，并称之为完备数据集；利用AM规则计算出缺失样本相应的A个近邻，即满足阔值条件下或者控制限下的样本，提取缺失数据样本局部信息中缺失数据的相关信息；应用误差最小化准则，计算该缺失数据的近邻样本的权重；得到权值后，对样本进行加权重构，选取重构的缺失数据点，代替初始值，即可对缺失数据进行恢复。2. 根据权利要求1所述的一种对缺失数据进行恢复处理的方法，其特征在于，所述的建模包括完备数据集和不完备数据集选取模型、不完备数据集初始化和排序模型、A近邻选择模型、数据点重构模型，W及数据库的更新模型；对于工业过程中的数据，要对缺失的数据进行初始化，保证计算数据的等长特性，W及方便计算机识别该样本是否存在数据缺失的现象；然后根据是否存在缺失进行数据样本的分离，分为完备数据...

【专利技术属性】
技术研发人员：郭金玉，袁堂明，李元，
申请(专利权)人：沈阳化工大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人