当前位置: 首页 > 专利查询>辽宁大学专利>正文

一种生成式对抗网络估值的不完整数据聚类方法技术

技术编号:25837309 阅读:53 留言:0更新日期:2020-10-02 14:17
一种生成式对抗网络估值的不完整数据聚类方法,步骤如下:(1)确定最近邻样本;(2)生成式对抗网络估值填补缺失数据,区间化填补数据;(3)提出生成对抗网络估值的区间数据模糊C均值聚类;(4)利用步骤(3)中聚类方法对步骤(2)中得到的区间型数据集进行聚类,得到聚类结果,与四种经典方法进行实验结果对比,以此验证本发明专利技术的有效性。利用UCI数据库中的生物数据集鸢尾花Iris、医学数据集成年人肝病Bpua和医疗数据集乳腺癌症Breast,在四种缺失率的情况下与四种经典方法进行实验,验证本发明专利技术方法有更高的聚类准确率。

【技术实现步骤摘要】
一种生成式对抗网络估值的不完整数据聚类方法
本专利技术涉及一种生成式对抗网络估值的不完整数据聚类方法,属于不完整数据聚类

技术介绍
在信息时代数据量激增,每时每刻都能产生大量数据,如何对数据进行高效处理和利用成为一个研究热点,聚类分析作为一种无监督算法在数据分析领域有着愈发重要的意义。模糊C均值方法(FCM)区别于传统的硬划分,隶属度取值不只局限在0和1两个值,充分表现了事物之间的模糊性与相似性,成为一种有效且广泛应用的聚类分析方法。但是FCM方法存在一定的局限性,FCM算法不能直接对不完整数据进行聚类分析。然而现实世界中不完整数据的产生问题无法避免,数据采集失败、数据存储泄露、噪声干扰等经常会有属性数据丢失,造成不完整数据集,为数据聚类分析带来困难。如何充分挖掘不完整数据中的有效信息至关重要,要对不完整数据集进行高效的聚类分析是一个必须解决的难题,因此对不完整数据的模糊聚类研究具有重要的实际意义。
技术实现思路
为了解决上述存在的问题,本专利技术提供一种生成式对抗网络估值的不完整数据聚类方法。本专利技术的本文档来自技高网...

【技术保护点】
1.一种生成式对抗网络估值的不完整数据聚类方法,其特征在于,其步骤为:/n1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集;不完整数据样本集中的不完整数据样本x

【技术特征摘要】
1.一种生成式对抗网络估值的不完整数据聚类方法,其特征在于,其步骤为:
1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集;不完整数据样本集中的不完整数据样本xa与数据样本xb的相似性度量公式如公式(1):



其中,xia是样本xa的第i个属性,xib是样本xb的第i个属性;
Ii表达式为式(2):



其中,n表示数据集中样本总数;
通过属性相关的相似度计算公式(1)和(2),得到不完整数据样本的最近邻样本,构成缺失数据的训练样本集,计算不完整数据样本和其最近邻样本之间相似度;
2)生成对抗网络填补缺失数据,区间化填补数据:将VAE作为生成对抗网络GAN的生成器,与GAN的判别器融合建立不完整数据填补模型网络的拓扑结构,将最近邻样本集的属性中值作为不完整数据构造特征标签,训练样本集训练网络,完成不完整数据对缺失属性的估值填补,得到完整的数值型数据集;
变分自动编码器中的隐变量z由变分分布q(z|x)进行选择,通过假设简单的高斯分布,及贝叶斯算法计算其中的KL散度:



最大似然估计的混合损失函数的优化目标函数:



其中,x为输入样本,z为隐变量,z~p(z),x|z~pθ(x|z),z满足高斯分布p(z),从z中采样通过神经网络计算pθ(x|z)进而生成数据;
不完整数据区间化填补:利用上述模型填补缺失数据属性,得到完整的数值型数据集,进一步将得到的数值型数据区间化,由属性误差均值绝对值确定区间大小;假设缺失属性估值为x,对完整数据的估值误差取平均值为e,则缺失属性区间为[x-e,x+e];
3)生成对抗网络估值的区间型数据模糊C均值聚类:首先对步骤2)得到的缺失属性区间利用近邻样本属性极值进行约束,然后对区间型数据进行模糊聚类分析;
3.1)最近邻样本属性极值对区间的约束:在最近邻样本集中,选取缺失属性的数据,以缺失属性的最小值与最大值构造属性区间[Min,Max],将由属性误差均值绝对值构造的属性区间[x-e,x+e]与属性最小值最大值构造的属性区间[Min,Max]取交,得到新的区间[min,max]作为属性估值区间;如果,两个区间不存在交集,说明不完整数据样本点很可能是...

【专利技术属性】
技术研发人员:张利侯晴王彦捷宣伟宏张皓博
申请(专利权)人:辽宁大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1