基于半监督生成对抗网络的文物感知数据缺失值插补方法技术

技术编号:32476007 阅读:55 留言:0更新日期:2022-03-02 09:38
本发明专利技术公开了一种基于半监督生成对抗网络的文物感知数据缺失值插补方法,包括:步骤1、获取包含文物感知数据的数据集并对其进行预处理,预处理包括对数据集模拟缺失,包括完全随机缺失、随机缺失、非随机缺失;步骤2、针对多种不完整类型的数据集构建缺失值预测的DAE

【技术实现步骤摘要】
基于半监督生成对抗网络的文物感知数据缺失值插补方法


[0001]本专利技术涉及大数据预处理领域,尤其涉及一种基于半监督生成对抗网络的文物感知数据缺失值插补方法。

技术介绍

[0002]随着大数据时代的不断发展,文物保护领域正在以指数级的增长速度产生海量数据,其中大量的数据被用于分析和决策。然而,现实中,海量的数据往往复杂混乱,会带来数据缺失、数据不一致、数据冗余和噪声等问题,这种混乱的数据不利于建模分析,因为建模分析需要完整的高质量数据。因此,为了能够在大量的数据中挖掘出有意义且有价值的信息,并为生产生活提供重要的决策,数据预处理是十分重要的。其中缺失数据处理是数据预处理中非常重要的一项任务,因为在实践中,各种主、客观因素都会导致数据缺失。为了有效应用数据挖掘方法、提高数据挖掘效率,研究缺失数据处理方法显得意义重大。由于受到硬件设备的固有限制、部署环境的随机性以及数据处理过程中的人为失误等多方面因素的影响,大数据环境下,数据缺失成为了一种普遍存在的问题。数据集中不可避免地包含大量的缺失值,而大多数现有的上层应用分析工具无法处理包含缺失值的数据集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于半监督生成对抗网络的文物感知数据缺失值插补方法,其特征在于,该方法包括以下步骤:步骤1、获取包含文物感知数据的数据集并对其进行预处理,预处理包括对数据集模拟缺失,模拟缺失的机制包括完全随机缺失、随机缺失、非随机缺失;步骤2、针对多种不完整类型的数据集构建缺失值预测的DAE

SemiGAN模型,并在该模型前加入了降噪自编码器,将预处理后的数据集输入DAE

SemiGAN模型中进行训练,生成与原始数据集相似度最高的样本集;步骤3、根据生成的样本集,计算样本集中各个元组之间的相似度,构建相似图,将相似图从无向图转向有向图,得到填充顺序;最后根据模型生成的样本集和填充顺序,对数据集中缺失的数据进行填充。2.根据权利要求1所述的基于半监督生成对抗网络的文物感知数据缺失值插补方法,其特征在于,所述步骤1的方法具体为:将包含缺失值的数据集S输入,对其进行预处理,即对数据集模拟缺失,其缺失机制包括完全随机缺失、随机缺失、非随机缺失;根据这三种缺失机制,对数据集S进行随机产生缺失值,生成包含一定比例缺失值的数据集S

。3.根据权利要求1所述的基于半监督生成对抗网络的文物感知数据缺失值插补方法,其特征在于,所述步骤2的方法具体为:步骤2.1、获取经过预处理的包含缺失值的数据集S

,将其转换成向量X=(X1,

,X
d
,y);步骤2.2、构建DAE

SemiGAN模型;步骤2.3、将向量X=(X1,

,X
d
,y),传入DAE

SemiGAN模型当中,通过DAE

SemiGAN模型对向量进行特征学习;步骤2.4、通过DAE

SemiGAN模型训练后输出与原始数据集相似度最高的样本集XG。4.根据权利要求3所述的基于半监督生成对抗网络的文物感知数据缺失值插补方法,其特征在于,所述步骤2.2构建的DAE

SemiGAN模型具体为:模型的具体结构包括降噪自编码器DAE与添加了y标签的半监督生成对抗网络模型SemiGAN,经过降噪自编码器DAE处理后的向量传入半监督生成对抗网络SemiGAN中,进行模型训练;半监督生成对抗网络SemiGAN为生成式模型,用于生成服从原始数据集分布的新样本,包括一个生成器G和一个判别器D,即当把一个包含缺失值的数据集传入半监督生成对抗网络SemiGAN中,通过生成器G与判别器D的博弈,生成器G最终会生成一份符合原始数据集分布的完整新样本集XG,根据这份完整样本集XG作为缺失值填充的依据。5.根据权利要求4所述的基于半监督生成对抗网络的文物感知数据缺失值插补方法,其特征在于,所述步骤2.3的方法具体为:步骤2.3.1、向量X首先传入降噪自编码器DAE中,降噪自编码器首先以一定的概率丢失原始数据,然后通过神经网络的“瓶颈”对噪声污染后的原始数据进行压缩,得到其特征表达向量,然后使用解码器重构原始输入数据,最后通过最小化重构损失函数来得到整个网络的权重参数,即输出权重参数对应的向量Xz;步骤2.3.2、经过降噪自编码器DAE处理的向量Xz作为此步骤的输入,将其传入半监督生成对抗网络模型SemiGAN当中,生成对抗网络包括一个生成器G和一个判别器D,采用了二
值博弈的思想,双方的目的都是使自身利益最大化。6.根据权利要求5所述的基于半监督生成对抗网络的文物感知数据缺失值插补方法,其特征在于,所述步骤2.3.1中计算权重参数的公式为:z=Encoder(X+η)X
Z
=Deconder(z)其中,X为数据集的低维向量表达式,η为DAE中的噪声,通过编码器Encoder对其编码成为z,z为降噪自编码器DAE中的特征表达向量,紧接着通过解码器Decoder对z进行解码,得到Xz,即经DAE处理后生成的低维特征表达向量。7.根据权利要求5所述的基于半监督生成对抗网络的文物感知数据缺失值插补方法,其特征在于,所述步骤2.3.2中的方法具体...

【专利技术属性】
技术研发人员:朱容波王俊袁小佩
申请(专利权)人:中南民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1