基于线性自学习网络的缺失值填补方法、存储介质及系统技术方案

技术编号：26731473 阅读：28 留言：0更新日期：2020-12-15 14:34

本发明专利技术公开了一种基于线性自学习网络的缺失值填补方法、存储介质及系统，获取没有缺失值的原始时序数据，对原始时序数据进行预处理，以随机概率构造缺失数据集，将新生成的缺失数据集和相对应的原始数据作为新的数据集；构建基于线性自学习网络模型，利用生成的新数据集进行训练；利用训练后的基于线性自学习网络模型，使用反向传播算法进行缺失值填补，将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中，提高下游分类和回归任务性能。本发明专利技术利用线性自学习网络能够深度挖掘数据内部及相互关系的特点，能同时提高填充精度和填充效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于线性自学习网络的缺失值填补方法、存储介质及系统
本专利技术属于数据挖掘
，具体涉及一种基于线性自学习网络的缺失值填补方法、存储介质及系统。
技术介绍
缺失值的现象已广泛出现在现实世界的数据集中，这降低了数据集的质量和可靠性。由于各种原因，例如硬件问题，紧急情况，人为错误等，在许多实际情况下，不可避免的会出现缺失值的现象。一种办法是直接删除不完整的记录，然而这将丢失很多有用的信息。因此，如何填补缺失值已成为一个重要问题。此任务对许多算法至关重要，例如机器学习，深度学习和数据挖掘，不完整数据集中的缺失值会对他们造成很严重的影响。在实用的数据库中，数据值缺失的情况是不可避免的。造成数据缺失的原因是多方面的，主要有以下几种：一，有些信息被遗漏，可能是因为输入时认为不重要，忘记填写了或对数据理解错误而遗漏，也可能是由于数据采集设备的故障、存储介质的故障、一些人为因素等原因而丢失了；二，有些信息暂时无法获取，例如在申请表数据中，对某些问题的反映依赖于其他问题；三，有些对象的某个或某些属性是不可用的即对这个对象来说，该属性是不存在的，等等。对于数据挖掘来说，缺失值的存在，造成了以下影响：首先，系统丢失了大量的有用信息；其次，系统中所表现出的不确定性更加显著；并且，包含缺失值的数据使挖掘过程陷入混乱，导致不可靠的输出。数据挖掘算法本身更致力于避免数据过分适合所建的模型，这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此，数据的缺失值需要通过专门的方法进行推导、补全等，以减少数据挖掘算法与实际应用间的差距。...

【技术保护点】
1.基于线性自学习网络的缺失值填补方法，其特征在于，包括以下步骤：/nS1、获取没有缺失值的原始时序数据，对原始时序数据进行预处理，以随机概率构造缺失数据集，将新生成的缺失数据集和相对应的原始数据作为新的数据集；/nS2、构建基于线性自学习网络模型，利用步骤S1生成的新数据集进行训练；/nS3、利用步骤S2训练后的基于线性自学习网络模型，使用反向传播算法进行缺失值填补，将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中。/n

【技术特征摘要】
1.基于线性自学习网络的缺失值填补方法，其特征在于，包括以下步骤：
S1、获取没有缺失值的原始时序数据，对原始时序数据进行预处理，以随机概率构造缺失数据集，将新生成的缺失数据集和相对应的原始数据作为新的数据集；
S2、构建基于线性自学习网络模型，利用步骤S1生成的新数据集进行训练；
S3、利用步骤S2训练后的基于线性自学习网络模型，使用反向传播算法进行缺失值填补，将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中。

2.根据权利要求1所述的基于线性自学习网络的缺失值填补方法，其特征在于，步骤S1中，假设填补缺失值xi,j，元组xi-1和元组xi+1组成当前数据元组邻域；将当前元组xi中除xi,j以外的其他属性值添加到当前的数据元组邻域中，以形成xi,j的缺失值邻域，缺失值邻域将用于填补缺失值xi,j。

3.根据权利要求1所述的基于线性自学习网络的缺失值填补方法，其特征在于，步骤S2中，依次计算一个时间步的数据元组上的每个属性值，然后时间窗口移至下一个时间步；当前元组中的每个属性值都有3d-1参数；结果，时间窗口是一组d*(3d-1)个参数的线性网络结构。

4.根据权利要求3所述的基于线性自学习网络的缺失值填补方法，其特征在于，根据参数集wi,j和缺失值邻域集MVNi,j，通过线性网络计算缺失值的填补值yi,j如下：

其中，k表示参数集或缺失值邻域集中的第k个值。

【专利技术属性】
技术研发人员：赵国帅，白凌南，李子烁，钱学明，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人