一种生成式对抗网络估值的不完整数据聚类方法技术

技术编号：25837309 阅读：53 留言：0更新日期：2020-10-02 14:17

一种生成式对抗网络估值的不完整数据聚类方法，步骤如下：(1)确定最近邻样本；(2)生成式对抗网络估值填补缺失数据，区间化填补数据；(3)提出生成对抗网络估值的区间数据模糊C均值聚类；(4)利用步骤(3)中聚类方法对步骤(2)中得到的区间型数据集进行聚类，得到聚类结果，与四种经典方法进行实验结果对比，以此验证本发明专利技术的有效性。利用UCI数据库中的生物数据集鸢尾花Iris、医学数据集成年人肝病Bpua和医疗数据集乳腺癌症Breast，在四种缺失率的情况下与四种经典方法进行实验，验证本发明专利技术方法有更高的聚类准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种生成式对抗网络估值的不完整数据聚类方法
本专利技术涉及一种生成式对抗网络估值的不完整数据聚类方法，属于不完整数据聚类

技术介绍
在信息时代数据量激增，每时每刻都能产生大量数据，如何对数据进行高效处理和利用成为一个研究热点，聚类分析作为一种无监督算法在数据分析领域有着愈发重要的意义。模糊C均值方法(FCM)区别于传统的硬划分，隶属度取值不只局限在0和1两个值，充分表现了事物之间的模糊性与相似性，成为一种有效且广泛应用的聚类分析方法。但是FCM方法存在一定的局限性，FCM算法不能直接对不完整数据进行聚类分析。然而现实世界中不完整数据的产生问题无法避免，数据采集失败、数据存储泄露、噪声干扰等经常会有属性数据丢失，造成不完整数据集，为数据聚类分析带来困难。如何充分挖掘不完整数据中的有效信息至关重要，要对不完整数据集进行高效的聚类分析是一个必须解决的难题，因此对不完整数据的模糊聚类研究具有重要的实际意义。
技术实现思路
为了解决上述存在的问题，本专利技术提供一种生成式对抗网络估值的不完整数据聚类方法。...

【技术保护点】
1.一种生成式对抗网络估值的不完整数据聚类方法，其特征在于，其步骤为：/n1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集；不完整数据样本集中的不完整数据样本x

【技术特征摘要】
1.一种生成式对抗网络估值的不完整数据聚类方法，其特征在于，其步骤为：
1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集；不完整数据样本集中的不完整数据样本xa与数据样本xb的相似性度量公式如公式(1)：

其中，xia是样本xa的第i个属性，xib是样本xb的第i个属性；
Ii表达式为式(2)：

其中，n表示数据集中样本总数；
通过属性相关的相似度计算公式(1)和(2)，得到不完整数据样本的最近邻样本，构成缺失数据的训练样本集，计算不完整数据样本和其最近邻样本之间相似度；
2)生成对抗网络填补缺失数据，区间化填补数据：将VAE作为生成对抗网络GAN的生成器，与GAN的判别器融合建立不完整数据填补模型网络的拓扑结构，将最近邻样本集的属性中值作为不完整数据构造特征标签，训练样本集训练网络，完成不完整数据对缺失属性的估值填补，得到完整的数值型数据集；
变分自动编码器中的隐变量z由变分分布q(z|x)进行选择，通过假设简单的高斯分布，及贝叶斯算法计算其中的KL散度：

最大似然估计的混合损失函数的优化目标函数：

其中，x为输入样本，z为隐变量，z～p(z)，x|z～pθ(x|z)，z满足高斯分布p(z)，从z中采样通过神经网络计算pθ(x|z)进而生成数据；
不完整数据区间化填补：利用上述模型填补缺失数据属性，得到完整的数值型数据集，进一步将得到的数值型数据区间化，由属性误差均值绝对值确定区间大小；假设缺失属性估值为x,对完整数据的估值误差取平均值为e，则缺失属性区间为[x-e，x+e]；
3)生成对抗网络估值的区间型数据模糊C均值聚类：首先对步骤2)得到的缺失属性区间利用近邻样本属性极值进行约束，然后对区间型数据进行模糊聚类分析；
3.1)最近邻样本属性极值对区间的约束：在最近邻样本集中，选取缺失属性的数据，以缺失属性的最小值与最大值构造属性区间[Min，Max]，将由属性误差均值绝对值构造的属性区间[x-e，x+e]与属性最小值最大值构造的属性区间[Min，Max]取交，得到新的区间[min，max]作为属性估值区间；如果，两个区间不存在交集，说明不完整数据样本点很可能是...

【专利技术属性】
技术研发人员：张利，侯晴，王彦捷，宣伟宏，张皓博，
申请(专利权)人：辽宁大学，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人