一种对缺失数据进行恢复处理的方法技术

技术编号:11193025 阅读:76 留言:0更新日期:2015-03-25 21:38
一种对缺失数据进行恢复处理的方法,涉及一种计算机数据处理方法,该方法按照kNN规则,通过提取工业中完整的数据集,计算出缺失样本相应的k个近邻,即满足阈值条件下或者控制限下的样本,用于提取在缺失数据样本局部信息中缺失数据的相关信息。应用误差最小化准则,计算该缺失数据的近邻样本的权重。得到权值后,对相应的近邻样本进行加权重构,重构出缺失的数据点,从而完善了数据的完整性。使得计算机的运行时间大大缩短,提高了运行效率,降低了噪声的影响,提高了补值的精确度。该方法能够有效的提取工业中完整数据集中的相关信息。

【技术实现步骤摘要】

本专利技术涉及一种计算机数据处理方法,特别是涉及一种对缺失数据进行恢复处 理的方法。
技术介绍
目前数据挖掘技术已经广泛的应用于医疗、化工、工业以及数理统计过程中。随着 大数据时代的来临,为了从大规模数据库中提取深层次的知识和信息,数据挖掘技术逐渐 成为国内外研究的热点。 然而人们在收集相应的数据时,难免会遇到一些因设备故障、记录的误差或者其 他的原因导致数据暂时无法获取或者遗漏的情况出现。在大多数情况下,这些缺失的数据 很可能携带对数据分析或检测的重要信息,如果直接丢掉这些数据进行决策,一方面,会出 现数据的不等长问题,而大部分算法不适用于不等长的数据;另一方面,包含缺失的数据集 会导致数据挖掘发生混乱,从而影响最终的过程决策。目前相应的补值算法有平均值算法、 EM算法。平均值补值算法对数据分布要求较高;EM算法受初值的影响较大,不同的初值,迭 代次数相差很大。因此目前还没有一种对各类缺失数据进行恢复的有效方法,找到一种方 法将缺失的数据进行恢复显的尤为重要。
技术实现思路
本专利技术的目的在于提供。该方法能够有效的 提取工业中完整数据集中的相关信息,按照一定的规则,求出每个缺失样本的A个近邻及 相应的权值,根据局部线性可微的原理,用A个近邻进行局部加权重构,重构出缺失的数据 点,从而完善了数据的完整性,提高了数据的实用性。 本专利技术的目的是通过以下技术方案实现的: ,所述方法包括以下过程: 将不含缺失点的完整数据集作为建模数据,并称之为完备数据集;利用ANN规则计算 出缺失样本相应的A个近邻,即满足阈值条件下或者控制限下的样本,提取缺失数据样本 局部信息中缺失数据的相关信息;应用误差最小化准则,计算该缺失数据的近邻样本的权 重;得到权值后,对样本进行加权重构,选取重构的缺失数据点,代替初始值,即可对缺失数 据进行恢复。 所述的,所述的建模包括完备数据集和不完 备数据集选取模型、不完备数据集初始化和排序模型j近邻选择模型、数据点重构模型,以 及数据库的更新模型;对于工业过程中的数据,要对缺失的数据进行初始化,保证计算数据 的等长特性,以及方便计算机识别该样本是否存在数据缺失的现象;然后根据是否存在缺 失进行数据样本的分离,分为完备数据集和不完备数据集;按照^NN规则选择近邻,对缺失 的数据点进行局部加权重构。 所述的,所述A近邻选择模型利用^NN规则 计算出缺失样本相应的A个近邻,即满足阈值条件或者控制限下的样本,在缺失数据样本 局部信息中提取缺失数据的相关信息。 所述的,所述重构模型的各个近邻样本的权 重由各个近邻所占的相关距离大小确定,充分地提取A个近邻样本中缺失样本的丢失信 息,将近邻样本作为缺失样本局部信息,能够避免其它样本对缺失样本的干扰,提高数据恢 复的精确度。 所述的,所述数据库模型,即样本模型的升 级是利用缺失样本经过补值后并入到正常完备的数据集中,及时更新了数据库样本,以便 后续的缺失样本能够搜索A个近邻,充分利用之前缺失的样本信息。 本专利技术的优点与效果是: 1.本专利技术提高计算机的运行效率。传统的补值方法会在补值时,所有的已知的工业 数据都会不加区分的使用。然而随着计算机技术和DCS数据的采集在工业中的广泛应用, 使得计算机得到用来统计生产过程指标的数据成指数增长。如果在进行数据恢复时,所有 的数据样本都要进行计算和循环,那么必将会给计算机带来巨大的计算负担,所以选择行 之有效的样本进行计算对提高计算机的运行效率是非常重要的。由于本专利技术在补值的过程 中会对在庞大的原始数据中选择的A个近邻进行数据点的重构,继而算法的计算量大大降 低,与此同时,这也使得计算机的运行时间大大缩短,提高了运行效率。 2.本专利技术降低了噪声的影响,提高了补值的精确度。在采集数据的过程中,不可 避免地在各个环节因为各方面的原因引入噪声。如果含有噪声的数据都参与缺失数据的恢 复,那么必然会对补值的精度带来很大的影响。本文充分利用局部信息,根据误差最小原 贝1J,选取A个近邻对缺失数据进行重构。如果该样本噪声十分大,偏离了原来所在的轨道, 那么一般不会被作为A个近邻的一员而被选中。即使含有噪声的样本被作为近邻时,它相 应的加权也会十分的小,对最终补值的精确度影响很小。 3.本专利技术恢复了数据的等长特点。对于生产过程,一般来说,采样间隔和生产时 间是一定的,对于批次的生产过程或者连续的生产过程,数据往往可以存储在一个数组或 者矩阵中。它们都具有相同的长度,便于后续的数据分析。但是如果数据一旦发生缺失,直 接省略会造成数据的不等长问题,不便于计算,无法求出相应的统计指标。经过本文方法的 补值后,达到了恢复数据等长的目的。 【附图说明】 图1为本专利技术的核心算法流程图。 【具体实施方式】 下面结合附图所示实施例对本专利技术进行详细的说明。 本专利技术即为一种处理缺失数据的局部加权算法,该方法的具体过程是: 生产过程中采集到的数据有的存在缺失,有的是完整的,本方法的目的就是将缺失样 本中的数据点进行恢复。首先,选取正常生产过程中非缺失的数据样本作为训练样本,按 照完整性的大小依次对缺失数据进行数据的恢复。设定一个阈值,利用kNN规则,分别在训 练集中找到缺失样本满足小于阈值条件下相应的A个最近邻。对每个样本计算相应的权 重,通过局部加权,对缺失的数据点进行重构。当该缺失的数据点重构完成,对该样本下一 个缺失的数据点按照相应的方法重构,当该样本缺失的所有数据点都恢复后,将该样本并 入训练集中,更新训练集。当第二个缺失样本到来后,依次按照上述方法进行数据的重构, 其他样本依次类推,从而将缺失的数据样本依次进行完善。 建模包括完备数据集和不完备数据集选取模型、不完备数据集初始化和排序模 型i近邻选择模型、数据点重构模型,以及数据库的更新模型。对于工业过程中的数据,要 对缺失的数据进行初始化,一方面保证计算数据的等长特性,另一方面方便计算机识别该 样本是否存在数据缺失的现象。初始化后进行数据样本的分离,根据是否存在缺失,分为完 备数据集和和不完备数据集。不完备的数据集将进行数据的恢复,完备的数据集作为数据 库用于不完备数据集中缺失样本搜索的近邻。按照kNN规则选择近邻,对缺失的数据点进 行局部加权重构。 k近邻选择模型利用kNN规则计算出缺失样本相应的近邻,即满足阈值条件或者 控制限下的样本作为缺失样本的k个近邻,该方法根据线性可微的原理,将数据进行小距 离分割,局部呈现线性化,提取缺失数据样本局部信息中缺失数据的相关信息,重构出缺失 数据。 重构模型中各个近邻样本的权重由各个近邻所占的相关距离的大小确定,如果近 邻样本和缺失样本的距离较远,那么该近邻的权重较小,重构数据时,该近邻的信息的利用 较少;反之,如果近邻样本和缺失样本的距离较近,该近邻的信息的利用较大。 数据库模型(样本模型)的升级是利用经过补值后的样本并入到正常完备的数据 集中,及时更新数据库样本,以便后续的缺失样本能够搜索A个近邻,充分利用之前缺失的 样本信息。整个过程中完备数据集的样本逐渐增加,不完备数据集的样本逐渐减少。当所 有缺失样本的数据都恢复后,完备数据集的本文档来自技高网...

【技术保护点】
一种对缺失数据进行恢复处理的方法,其特征在于,所述方法包括以下过程:将不含缺失点的完整数据集作为建模数据,并称之为完备数据集;利用kNN规则计算出缺失样本相应的k个近邻,即满足阈值条件下或者控制限下的样本,提取缺失数据样本局部信息中缺失数据的相关信息;应用误差最小化准则,计算该缺失数据的近邻样本的权重;得到权值后,对样本进行加权重构,选取重构的缺失数据点,代替初始值,即可对缺失数据进行恢复。

【技术特征摘要】
1. 一种对缺失数据进行恢复处理的方法,其特征在于,所述方法包括w下过程: 将不含缺失点的完整数据集作为建模数据,并称之为完备数据集;利用AM规则计算 出缺失样本相应的A个近邻,即满足阔值条件下或者控制限下的样本,提取缺失数据样本 局部信息中缺失数据的相关信息;应用误差最小化准则,计算该缺失数据的近邻样本的权 重;得到权值后,对样本进行加权重构,选取重构的缺失数据点,代替初始值,即可对缺失数 据进行恢复。2. 根据权利要求1所述的一种对缺失数据进行恢复处理的方法,其特征在于,所述的 建模包括完备数据集和不完备数据集选取模型、不完备数据集初始化和排序模型、A近邻 选择模型、数据点重构模型,W及数据库的更新模型;对于工业过程中的数据,要对缺失的 数据进行初始化,保证计算数据的等长特性,W及方便计算机识别该样本是否存在数据缺 失的现象;然后根据是否存在缺失进行数据样本的分离,分为完备数据...

【专利技术属性】
技术研发人员:郭金玉袁堂明李元
申请(专利权)人:沈阳化工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1