基于线性自学习网络的缺失值填补方法、存储介质及系统技术方案

技术编号:26731473 阅读:28 留言:0更新日期:2020-12-15 14:34
本发明专利技术公开了一种基于线性自学习网络的缺失值填补方法、存储介质及系统,获取没有缺失值的原始时序数据,对原始时序数据进行预处理,以随机概率构造缺失数据集,将新生成的缺失数据集和相对应的原始数据作为新的数据集;构建基于线性自学习网络模型,利用生成的新数据集进行训练;利用训练后的基于线性自学习网络模型,使用反向传播算法进行缺失值填补,将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中,提高下游分类和回归任务性能。本发明专利技术利用线性自学习网络能够深度挖掘数据内部及相互关系的特点,能同时提高填充精度和填充效率。

【技术实现步骤摘要】
基于线性自学习网络的缺失值填补方法、存储介质及系统
本专利技术属于数据挖掘
,具体涉及一种基于线性自学习网络的缺失值填补方法、存储介质及系统。
技术介绍
缺失值的现象已广泛出现在现实世界的数据集中,这降低了数据集的质量和可靠性。由于各种原因,例如硬件问题,紧急情况,人为错误等,在许多实际情况下,不可避免的会出现缺失值的现象。一种办法是直接删除不完整的记录,然而这将丢失很多有用的信息。因此,如何填补缺失值已成为一个重要问题。此任务对许多算法至关重要,例如机器学习,深度学习和数据挖掘,不完整数据集中的缺失值会对他们造成很严重的影响。在实用的数据库中,数据值缺失的情况是不可避免的。造成数据缺失的原因是多方面的,主要有以下几种:一,有些信息被遗漏,可能是因为输入时认为不重要,忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、一些人为因素等原因而丢失了;二,有些信息暂时无法获取,例如在申请表数据中,对某些问题的反映依赖于其他问题;三,有些对象的某个或某些属性是不可用的即对这个对象来说,该属性是不存在的,等等。对于数据挖掘来说,缺失值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;其次,系统中所表现出的不确定性更加显著;并且,包含缺失值的数据使挖掘过程陷入混乱,导致不可靠的输出。数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此,数据的缺失值需要通过专门的方法进行推导、补全等,以减少数据挖掘算法与实际应用间的差距。近年来,已经有许多缺失值填补算法提出。这些方法大多利用缺失值的完整近邻对缺失值进行填补。近邻数据元组越完整,最终填补的准确性越高。当不完整数据元组可以作为缺失值的近邻数据时,它们将忽视这些不完整的数据元组中的信息。缺失值现象通常发生在现实世界的数据集中,尤其是在时间连续数据集中。在时间连续数据集中,不完整数据元组的近邻取决于它们的时间关系。如此一来,缺失数据的近邻不可避免地包含其他缺失值。另外,聚集缺失值现象导致一些不完整的数据元组有很少甚至没有完整的近邻。以上介绍的已有方法均利用与缺失数据元组较为相似的完整近邻对缺失值进行填补。然而在聚簇缺失情景下,已有方法均面临缺失数据元组的完整近邻不足的弊端,因为与其较为相似的数据元组也包含缺失值,不能作为其完整近邻用于缺失值的填补。此外已有方法针对一条缺失数据元组,只在数据空间中搜索完整近邻,没有考虑已经被填补的缺失近邻。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于线性自学习网络的缺失值填补方法、存储介质及系统,利用线性自学习网络能够深度挖掘数据内部及相互关系的特点,同时提高填充精度和填充效率。本专利技术采用以下技术方案:基于线性自学习网络的缺失值填补方法,包括以下步骤:S1、获取没有缺失值的原始时序数据,对原始时序数据进行预处理,以随机概率构造缺失数据集,将新生成的缺失数据集和相对应的原始数据作为新的数据集;S2、构建基于线性自学习网络模型,利用步骤S1生成的新数据集进行训练;S3、利用步骤S2训练后的基于线性自学习网络模型,使用反向传播算法进行缺失值填补,将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中。具体的,步骤S1中,假设填补缺失值xi,j,元组xi-1和元组xi+1组成当前数据元组邻域;将当前元组xi中除xi,j以外的其他属性值添加到当前的数据元组邻域中,以形成xi,j的缺失值邻域,缺失值邻域将用于填补缺失值xi,j。具体的,步骤S2中,依次计算一个时间步的数据元组上的每个属性值,然后时间窗口移至下一个时间步;当前元组中的每个属性值都有3d-1参数;结果,时间窗口是一组d*(3d-1)个参数的线性网络结构。进一步的,根据参数集wi,j和缺失值邻域集MVNi,j,通过线性网络计算缺失值的填补值yi,j如下:其中,k表示参数集或缺失值邻域集中的第k个值。具体的,步骤S3中,将缺失值邻域分为两个不相交的子集:不完整邻域集,由缺失值组成;完整邻域集,由完整值组成;当缺失值邻域中包含有其他缺失值时,通过最小化损失函数来优化参数和缺失值,使用均方误差函数计算损失值Li,j;在对缺失值的训练过程中,通过利用完整数据与网络计算得到前向输出值计算损失后,对权重参数和缺失值求导来优化网络权重参数和缺失值;然后为所有缺失值赋初始值,使用反向传播算法在迭代过程中进行优化。进一步的,损失值Li,j为:Li,j=(xi,j-yi,j)2其中,xi,j为第i个时间步的第j个属性值,yi,j为缺失值邻域。进一步的,优化网络权重参数和缺失值:其中,k∈MVN,p∈IMVN。本专利技术的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。本专利技术的另一个技术方案是,一种基于线性自学习网络的缺失值填补系统,包括:处理器以及与所述处理器耦合的存储器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现所述填补方法的方法步骤。与现有技术相比,本专利技术至少具有以下有益效果:本专利技术一种基于线性自学习网络的缺失值填补方法,通过使用时间窗口结构来确定缺失值邻域,并构造了线性网络通过优化网络参数来描述不同属性值的关联。将缺失值邻域中的缺失值视为模型的可学习参数,通过与优化参数同时求导来优化这些缺失值,使得权重参数和缺失值可以相互促进。因此,缺失值的填补不仅是计算值,而且是网络优化得到的结果。无线通信数据集上的实验结果表明,线性自学习网络在缺失值填补任务上的表现更好。进一步的,骤S1通过将当前元组xi中除xi,j以外的其他属性值添加到当前的数据元组邻域xi-1和元组xi+1中形成xi,j的缺失值邻域,构成线性自学习网络模型的输入。进一步的,步骤S2通过滑动时间窗口的方式,以当前数据元组中每一个属性值为一个时间步,时间步的缺失值邻域中每个属性值均对应一个线性模型参数,最后构建完成线性网络结构。进一步的,通过线性网络计算缺失值的填补值的优点在于,线性网络在描述缺失值近邻与缺失值之间关系的同时描述了数据元组之间不同属性值直接的关联性。将缺失值视为网络的可学习参数使得缺失值不仅是计算值,同时是线性网络的迭代优化的结果。这样就可以不受填补顺序的限制。进一步的,步骤S3将缺失值邻域划分为不完整邻域集合完整邻域集两个不相交的子集,在对缺失值的训练过程中,通过利用完整数据与网络计算得到前向输出值计算损失后,对权重参数和缺失值求导,使用反向传播算法最小化损失函数,来优化网络权重参数和缺失值,从而提高模型的性能。综上所述,本专利技术方法提升了填充数据集中缺失值的效果,有效地解决了缺失率太高、填充不准确等造成的数据分析困难的问题本文档来自技高网
...

【技术保护点】
1.基于线性自学习网络的缺失值填补方法,其特征在于,包括以下步骤:/nS1、获取没有缺失值的原始时序数据,对原始时序数据进行预处理,以随机概率构造缺失数据集,将新生成的缺失数据集和相对应的原始数据作为新的数据集;/nS2、构建基于线性自学习网络模型,利用步骤S1生成的新数据集进行训练;/nS3、利用步骤S2训练后的基于线性自学习网络模型,使用反向传播算法进行缺失值填补,将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中。/n

【技术特征摘要】
1.基于线性自学习网络的缺失值填补方法,其特征在于,包括以下步骤:
S1、获取没有缺失值的原始时序数据,对原始时序数据进行预处理,以随机概率构造缺失数据集,将新生成的缺失数据集和相对应的原始数据作为新的数据集;
S2、构建基于线性自学习网络模型,利用步骤S1生成的新数据集进行训练;
S3、利用步骤S2训练后的基于线性自学习网络模型,使用反向传播算法进行缺失值填补,将缺失值填补完成后的时间连续完整数据集用于循环神经网络的本质特征与缺失规律的模型训练中。


2.根据权利要求1所述的基于线性自学习网络的缺失值填补方法,其特征在于,步骤S1中,假设填补缺失值xi,j,元组xi-1和元组xi+1组成当前数据元组邻域;将当前元组xi中除xi,j以外的其他属性值添加到当前的数据元组邻域中,以形成xi,j的缺失值邻域,缺失值邻域将用于填补缺失值xi,j。


3.根据权利要求1所述的基于线性自学习网络的缺失值填补方法,其特征在于,步骤S2中,依次计算一个时间步的数据元组上的每个属性值,然后时间窗口移至下一个时间步;当前元组中的每个属性值都有3d-1参数;结果,时间窗口是一组d*(3d-1)个参数的线性网络结构。


4.根据权利要求3所述的基于线性自学习网络的缺失值填补方法,其特征在于,根据参数集wi,j和缺失值邻域集MVNi,j,通过线性网络计算缺失值的填补值yi,j如下:



其中,k表示参数集或缺失值邻域集中的第k个值。

【专利技术属性】
技术研发人员:赵国帅白凌南李子烁钱学明
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1