一种基于生成对抗网络的属性缺失数据集补全与预测方法技术

技术编号:20045835 阅读:7 留言:0更新日期:2019-01-09 04:27
本发明专利技术公开了一种基于生成对抗网络的属性缺失数据集补全与预测方法,包括步骤:1)对数据minmax归一化,同时对离散类型的属性使用one hot编码,缺失值标记为0;2)使用数据集建立关于样本的缺失位置编码向量;3)构建生成式对抗网络与辅助预测网络进行数据填充与标签的预测;4)根据属性中最大最小值还原为minmax归一化前的结果;5)通过测试选取合适的超参数;本发明专利技术充分利用数据集中数据分布信息与标签信息,能够对高维度缺失数据集进行有效的数据填充,同时在训练完成之后,该方法中包含的另一辅助预测网络能够直接队输入的属性缺失数据给出标签的预测结果,流程简捷、具有更高的预测准确率。

【技术实现步骤摘要】
一种基于生成对抗网络的属性缺失数据集补全与预测方法
本专利技术涉及数据预处理的
,尤其是指一种基于生成对抗网络的属性缺失数据集补全与预测方法。
技术介绍
数据集属性缺失这一现象在各类数据集中广泛存在,通常是在数据采集或者传输的过程中信息丢失造成的。数据集中的样本丢失一个与多个属性会使后续建立预测、分类的模型预测精度下降。如何对这些缺失数据进行补全,并利用具有属性缺失的样本蕴含的信息来构建高精度的预测模型,是数据预处理面临的一个关键问题。多数统计工具采取删除缺失样本对应行、列的方式处理属性缺失的问题,或者使用该列中位数、平均数对缺失位置进行填充;这类方式虽然高效、便捷,但未能完全利用样本数据分布信息,造成计算结果的不准确。在多维数据处理的过程中,数据不同属性之间往往存在很多关联性,这些属性之间的关联性可以为数据的填充提供更多的信息,考虑到这类关联性的数据填充方法,在对缺失值进行估计时会有更小的偏差,从而能够深度挖掘缺失样本蕴含的信息。在此基础上,更进一步的数据填充方法通过建模来填补缺失值。如回归填补法将缺失属性作为因变量建立回归方程实现预测,EM算法先初始化缺失值,通过E步与M步迭代来得到最终的填补结果,k邻近算法(KNN)则根据未缺失的属性计算欧式距离匹配样本集中最相似的k个样本,通过加权平均得到填补结果。这些算法往往在数据量足够的情况下,取得比均值、中位数更准确的填补结果,然后通常也存在一些问题:回归填补法中,需要各属性之间有显著地线性关系,而基于EM算法的填充方法,计算复杂度高,并且容易陷入局部最优;基于k近邻的填充方法实现简单,但在面对大数据量时,计算量大复杂度极高导致计算困难。此外,数据填充的主要目的是为了提供更多完整的数据以供后续的建模预测。以上方法中未涉及到建模的过程,填充的数据往往和预测的标签往往会存在一些关联,将预测模型与填充方法结合起来能够使得填充得到的数据能起到更好的预测效果。针对传统数据填充方法处理高维度数据时存在计算复杂度高,未能充分挖掘标签信息以修正填充结果这两个问题;本专利技术将基于生成式对抗网络学习数据分布进行数据填充,同时建立一个辅助预测网络充分挖掘数据与标签之间的关联,使得其互信息达到最大。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出了一种基于生成对抗网络的属性缺失数据集补全与预测方法,充分利用数据集中数据分布信息与标签信息,能够对高维度缺失数据集进行有效的数据填充,同时在训练完成之后,该方法中包含的另一辅助预测网络能够直接对输入的属性缺失数据给出标签的预测结果,流程简捷、具有更高的预测准确率。为实现以上目的,本专利技术所提供的技术方案为:一种基于生成对抗网络的属性缺失数据集补全与预测方法,首先,针对属性缺失的数据集进行数据预处理,主要包括minmax归一化和离散的数值变量的onehot编码转换;然后针对具有属性缺失的样本,构建缺失位置的编码向量,从而表达缺失的位置信息;接着构建缺失数据的填充网络与辅助预测网络同步完成缺失数据的填充与标签预测;在网络训练完成之后,以填充网络中生成网络的输出结果为填充的结果,根据minmax归一化时记录的列最大最小值进行尺度还原;最后,通过不断修改超参数观测其在验证集的预测结果的损失来完成超参数的设置;其包括以下步骤1)数据预处理;2)构建缺失位置编码向量;3)构建缺失数据填充网络与辅助预测网络;4)填充数据尺度还原;5)测试与超参数设置。在步骤1)中,对不同数据类型进行不同的预处理,涉及的主要数据类型分为连续型数值与离散型数值,对于连续型数值,直接使用minmax进行归一化;对于离散型数值,转化为onehot编码之后,使用minmax归一化,对于缺失位置统一补上0;此外,将数据集是否划分为两部分:具有属性缺失的数据与属性未缺失的数据。在步骤2)中,构建缺失位置编码向量,其情况是:在数据填充时,样本缺失的属性位置也是一种重要的信息,在使用神经网络进行填充时,只需要对这些缺失的位置进行填充,在构建缺失位置编码向量时,对所有样本的每一列进行遍历,如果该属性缺失,记为“1”,否则记为“0”,按此流程执行,每个样本都会有一个缺失位置编码向量对应。在步骤3)中,构建缺失数据填充网络与辅助预测网络,其情况是:该网络在原始的生成式对抗网络做了如下改进:①在生成网络的输入中移除了随机采样得到的噪声;②使用生成的数据与缺失位置向量编码来组成填充的数据;此外,辅助预测网络的引入更充分的考虑了属性与标签之间的联系,在使用属性缺失数据进行预测同时,使用辅助预测网络预测标签与真实标签之间损失通过BP算法进行反馈计算更新了生成网络,从而使得生成的填充数据在构建预测模型时具有更好的效果;联合生成式对抗网络中的损失函数与辅助预测网络中的损失函数,通过超参数控制其权重比,来决定生成的填充数据分布更贴近完整数据的分布或者是能够使得预测模型预测更准确;其中,数据填充网络与辅助预测网络的结构包含生成网络、判别网络、辅助预测网络;下面对这三个网络的结构进行详细的介绍:生成网络:输入部分由具有属性缺失的数据与其对应的缺失位置编码向量拼接构成;根据数据的结构不同,隐藏层能够使用全连接层或者反卷积层来构成,尤其在输入的数据是图片类型数据时,使用反卷积操作得到生成的填充数据;这里假定输入的数据记为I,是100维的向量,因而对应的缺失位置编码向量记为E,也是100维的,经拼接得到的输入向量维度为200;隐藏层由全连接层构成,激活函数使用relu;最终的输出层,具有100个输出单元,记为O,输出层的激活函数采用sigmoid;填充的数据最终由由I·(1-E)+O·E构成;判别网络:输入的数据有两部分,第一部分是基于生成网络的输出得到的填充数据结果,第二部分是属性未缺失的样本数据,输出结果为0~1之间的小数,代表判别网络认为接收的输入数据是否来自属性未缺失的数据的概率;根据输入数据类型的不同,网络结构的设置也不同,在输入数据为图像类型数据时,由卷积神经网络构建;这里假定输入数据是100维向量,那么隐藏层能够选择由全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数选择为sigmoid,表征概率;辅助预测网络:输入与判别网络完全一致,输出则是对输入样本关于标签的预测值,当预测问题是分类问题时,采用交叉熵作为损失函数,当预测问题是回归问题时,采用L2范数或者L1范数作为损失函数;网络结构与判别网络的设置方法相同;这里假定输入数据是100维向量,那么隐藏层能够选择由全连接层构成,激活函数设置为relu;输出层仅包含一个单元,激活函数按上述方式设置。在步骤4)中,对生成的填充数据进行尺度还原,由于预处理阶段使用了minmax进行了数据归一化,根据记录的每个属性的最大值与最小值,能够还原得到最终的填充的结果。在步骤5)中,测试与超参数设置,其情况是:网络在训练的过程中,损失来源于两部分:生成式对抗网络中的损失与辅助预测网络的预测损失;这两部分损失以不同的比例λ组合得到综合的损失;不同的λ会影响模型的训练;在操作过程中,切分数据集为训练集和测试集,在训练集上选取不同尺度的λ,分别为0.1,0.3,0.5,0.7,0.9进行训练,同时,使用测试集进行测试,以测试集上辅助预测本文档来自技高网
...

【技术保护点】
1.一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:首先,针对属性缺失的数据集进行数据预处理,主要包括minmax归一化和离散的数值变量的one hot编码转换;然后针对具有属性缺失的样本,构建缺失位置的编码向量,从而表达缺失的位置信息;接着构建缺失数据的填充网络与辅助预测网络同步完成缺失数据的填充与标签预测;在网络训练完成之后,以填充网络中生成网络的输出结果为填充的结果,根据minmax归一化时记录的列最大最小值进行尺度还原;最后,通过不断修改超参数观测其在验证集的预测结果的损失来完成超参数的设置;其包括以下步骤1)数据预处理;2)构建缺失位置编码向量;3)构建缺失数据填充网络与辅助预测网络;4)填充数据尺度还原;5)测试与超参数设置。

【技术特征摘要】
1.一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:首先,针对属性缺失的数据集进行数据预处理,主要包括minmax归一化和离散的数值变量的onehot编码转换;然后针对具有属性缺失的样本,构建缺失位置的编码向量,从而表达缺失的位置信息;接着构建缺失数据的填充网络与辅助预测网络同步完成缺失数据的填充与标签预测;在网络训练完成之后,以填充网络中生成网络的输出结果为填充的结果,根据minmax归一化时记录的列最大最小值进行尺度还原;最后,通过不断修改超参数观测其在验证集的预测结果的损失来完成超参数的设置;其包括以下步骤1)数据预处理;2)构建缺失位置编码向量;3)构建缺失数据填充网络与辅助预测网络;4)填充数据尺度还原;5)测试与超参数设置。2.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤1)中,对不同数据类型进行不同的预处理,涉及的主要数据类型分为连续型数值与离散型数值,对于连续型数值,直接使用minmax进行归一化;对于离散型数值,转化为onehot编码之后,使用minmax归一化,对于缺失位置统一补上0;此外,将数据集根据是否有属性缺失分为两部分:具有属性缺失的数据与属性未缺失的数据。3.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤2)中,构建缺失位置编码向量,其情况是:在数据填充时,样本缺失的属性位置也是一种重要的信息,在使用神经网络进行填充时,只需要对这些缺失的位置进行填充,在构建缺失位置编码向量时,对所有样本的每一列进行遍历,如果该属性缺失,记为“1”,否则记为“0”,按此流程执行,每个样本都会有一个缺失位置编码向量对应。4.根据权利要求1所述的一种基于生成对抗网络的属性缺失数据集补全与预测方法,其特征在于:在步骤3)中,构建缺失数据填充网络与辅助预测网络,其情况是:该网络在原始的生成式对抗网络做了如下改进:①在生成网络的输入中移除了噪声;②使用生成的数据与缺失位置向量编码来组成填充的数据;此外,辅助预测网络的引入更充分的考虑了属性与标签之间的联系,在使用属性缺失数据进行预测同时,使用辅助预测网络预测标签与真实标签之间损失通过BP算法进行反馈计算更新了生成网络,从而使得生成的填充数据在构建预测模型时具有更好的效果;联合生成式对抗网络中的损失函数与辅助预测网络中的损失函数,通过超参数控制其权重比,来决定生成的填充数据分布更贴近完整数据的分布或者是能够使得预测模型预测更准确;其中,数据填充网络...

【专利技术属性】
技术研发人员:赵跃龙王禹
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1