当前位置: 首页 > 专利查询>辽宁大学专利>正文

一种生成式对抗网络估值的不完整数据聚类方法技术

技术编号:25837309 阅读:48 留言:0更新日期:2020-10-02 14:17
一种生成式对抗网络估值的不完整数据聚类方法,步骤如下:(1)确定最近邻样本;(2)生成式对抗网络估值填补缺失数据,区间化填补数据;(3)提出生成对抗网络估值的区间数据模糊C均值聚类;(4)利用步骤(3)中聚类方法对步骤(2)中得到的区间型数据集进行聚类,得到聚类结果,与四种经典方法进行实验结果对比,以此验证本发明专利技术的有效性。利用UCI数据库中的生物数据集鸢尾花Iris、医学数据集成年人肝病Bpua和医疗数据集乳腺癌症Breast,在四种缺失率的情况下与四种经典方法进行实验,验证本发明专利技术方法有更高的聚类准确率。

【技术实现步骤摘要】
一种生成式对抗网络估值的不完整数据聚类方法
本专利技术涉及一种生成式对抗网络估值的不完整数据聚类方法,属于不完整数据聚类

技术介绍
在信息时代数据量激增,每时每刻都能产生大量数据,如何对数据进行高效处理和利用成为一个研究热点,聚类分析作为一种无监督算法在数据分析领域有着愈发重要的意义。模糊C均值方法(FCM)区别于传统的硬划分,隶属度取值不只局限在0和1两个值,充分表现了事物之间的模糊性与相似性,成为一种有效且广泛应用的聚类分析方法。但是FCM方法存在一定的局限性,FCM算法不能直接对不完整数据进行聚类分析。然而现实世界中不完整数据的产生问题无法避免,数据采集失败、数据存储泄露、噪声干扰等经常会有属性数据丢失,造成不完整数据集,为数据聚类分析带来困难。如何充分挖掘不完整数据中的有效信息至关重要,要对不完整数据集进行高效的聚类分析是一个必须解决的难题,因此对不完整数据的模糊聚类研究具有重要的实际意义。
技术实现思路
为了解决上述存在的问题,本专利技术提供一种生成式对抗网络估值的不完整数据聚类方法。本专利技术的目的是通过以下技术方案实现的:一种生成式对抗网络估值的不完整数据聚类方法,其步骤为:一种生成式对抗网络估值的不完整数据聚类方法,其特征在于,其步骤为:1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集;不完整数据样本集中的不完整数据样本xa与数据样本xb的相似性度量公式如公式(1):其中,xia是样本xa的第i个属性,xib是样本xb的第i个属性;Ii表达式为式(2):其中,n表示数据集中样本总数;通过属性相关的相似度计算公式(1)和(2),得到不完整数据样本的最近邻样本,构成缺失数据的训练样本集,计算不完整数据样本和其最近邻样本之间相似度;2)生成对抗网络填补缺失数据,区间化填补数据:将VAE作为生成对抗网络GAN的生成器,与GAN的判别器融合建立不完整数据填补模型网络的拓扑结构,将最近邻样本集的属性中值作为不完整数据构造特征标签,训练样本集训练网络,完成不完整数据对缺失属性的估值填补,得到完整的数值型数据集;变分自动编码器中的隐变量z由变分分布q(z|x)进行选择,通过假设简单的高斯分布,及贝叶斯算法计算其中的KL散度:最大似然估计的混合损失函数的优化目标函数:其中,x为输入样本,z为隐变量,z~p(z),x|z~pθ(xz),z满足高斯分布p(z),从z中采样通过神经网络计算pθ(x|z)进而生成数据;不完整数据区间化填补:利用上述模型填补缺失数据属性,得到完整的数值型数据集,进一步将得到的数值型数据区间化,由属性误差均值绝对值确定区间大小;假设缺失属性估值为x,对完整数据的估值误差取平均值为e,则缺失属性区间为[x-e,x+e];3)生成对抗网络估值的区间型数据模糊C均值聚类:首先对步骤2)得到的缺失属性区间利用近邻样本属性极值进行约束,然后对区间型数据进行模糊聚类分析;3.1)最近邻样本属性极值对区间的约束:在最近邻样本集中,选取缺失属性的数据,以缺失属性的最小值与最大值构造属性区间[Min,Max],将由属性误差均值绝对值构造的属性区间[x-e,x+e]与属性最小值最大值构造的属性区间[Min,Max]取交,得到新的区间[min,max]作为属性估值区间;如果,两个区间不存在交集,说明不完整数据样本点很可能是离群点,此时直接取属性误差均值绝对值构造的属性区间即可完成区间估计;3.2)设属性维度为s区间数据集数据对于任意的j(1≤j≤s),区间型模糊C均值算法的目标函数公式为:表示第i个聚类中心,为聚类中心矩阵,利用拉格朗日乘子法迭代计算得到聚类中心更新公式为:若存在区间型数据样本在某个聚类中心的区间值内,其隶属度设为1,反之,则其隶属度为0,不属于该类,隶属度矩阵U(c×n)更新公式为:否则:4)利用生成对抗网络估值的区间型模糊C均值聚类方法对步骤2)中得到的区间型数据集进行聚类,得到聚类结果。所述的步骤4)中,具体步骤如下:4.1)构造对不完整数据样本的最近邻样本集:依据最近邻规则选择最近邻样本,确定最近邻样本数q,构建不完整数据的q个最近邻样本集;4.2)输入样本归一化:将所有的数据均转化为区间[0,1]之间的数,从而消除各维度间数量级的差别;4.3)数据填补模型初始化:对模型中的各网络参数进行初始化,权值,偏置值,最大迭代次数,训练误差;4.4)训练模型:使用训练样本集对模型进行训练;4.5)填补缺失属性:生成对抗网络模型对不完整数据中的各个缺失数据属性进行估值预测,同时得到网络对于数据集中的完整属性的估值误差;4.6)区间化数据集:根据区间型转化规则,将数值型数据集中的数据全部转化为区间型,进而构造区间型矩阵:4.7)初始化区间型FCM算法参数:初始化隶属度矩阵,并对聚类类别数迭代次数G、终止阈值ε、模糊指标m进行设置;4.8)按照公式(9)和公式(10)更新聚类中心矩阵:依据U(l-1)对聚类中心矩阵V(l)进行更新;4.9)按照公式(11)和公式(12)更新隶属度矩阵:语句V(l)对隶属度矩阵U(l)进行更新;4.10)算法条件判断:当迭代次数达到最大,或max|U(l+1)-U(l)|≤ε时,算法迭代停止;否则l=l+1,返回4.8)。本专利技术创造的有益效果为:本专利技术采用上述方案,通过相似度计算公式来计算待填补样本和其他样本之间的距离,利用构成的近邻样本作为不完整数据填补模型的训练样本,训练完成后用生成对抗网络模型填补缺失数据。同时,为了解决不完整数据的不确定性问题,区间化填补缺失数据,形成完整的区间数据集。为进一步减小区间化填补数据的误差,对区间大小进行优化。本专利技术在区间型数据集上对数据进行模糊聚类分析。附图说明图1是VAE网络结构模型图。图2是GAN网络模型结构图。图3是IVAEGAN模型结构图。具体实施方式一种自适应区间的不完整数据加权聚类方法,其步骤为:1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集。不完整数据样本集中的不完整数据样本xa与数据样本xb,存在缺失属性或者不存在缺失属性均可,相似性度量公式如公式(1):其中,xia和xib分别是样本xa和样本xb的第i个属性;Ii表达式为式(2):n表示数据集中样本总数。通过属性相关的相似度计算公式(1)和(2),可以得到不完整数据样本的最近邻样本,构成缺失数据的训练样本集。具体的不完整数据样本和其最近邻样本之间相似度的计算过程为:假设有一个包含有5个数据属性值的不完整数据样本表示为xa=(5,?,?,3,?),其中“?”表示丢失的本文档来自技高网...

【技术保护点】
1.一种生成式对抗网络估值的不完整数据聚类方法,其特征在于,其步骤为:/n1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集;不完整数据样本集中的不完整数据样本x

【技术特征摘要】
1.一种生成式对抗网络估值的不完整数据聚类方法,其特征在于,其步骤为:
1)确定最近邻样本:根据最近邻规则为不完整数据的选取相应的训练样本集;不完整数据样本集中的不完整数据样本xa与数据样本xb的相似性度量公式如公式(1):



其中,xia是样本xa的第i个属性,xib是样本xb的第i个属性;
Ii表达式为式(2):



其中,n表示数据集中样本总数;
通过属性相关的相似度计算公式(1)和(2),得到不完整数据样本的最近邻样本,构成缺失数据的训练样本集,计算不完整数据样本和其最近邻样本之间相似度;
2)生成对抗网络填补缺失数据,区间化填补数据:将VAE作为生成对抗网络GAN的生成器,与GAN的判别器融合建立不完整数据填补模型网络的拓扑结构,将最近邻样本集的属性中值作为不完整数据构造特征标签,训练样本集训练网络,完成不完整数据对缺失属性的估值填补,得到完整的数值型数据集;
变分自动编码器中的隐变量z由变分分布q(z|x)进行选择,通过假设简单的高斯分布,及贝叶斯算法计算其中的KL散度:



最大似然估计的混合损失函数的优化目标函数:



其中,x为输入样本,z为隐变量,z~p(z),x|z~pθ(x|z),z满足高斯分布p(z),从z中采样通过神经网络计算pθ(x|z)进而生成数据;
不完整数据区间化填补:利用上述模型填补缺失数据属性,得到完整的数值型数据集,进一步将得到的数值型数据区间化,由属性误差均值绝对值确定区间大小;假设缺失属性估值为x,对完整数据的估值误差取平均值为e,则缺失属性区间为[x-e,x+e];
3)生成对抗网络估值的区间型数据模糊C均值聚类:首先对步骤2)得到的缺失属性区间利用近邻样本属性极值进行约束,然后对区间型数据进行模糊聚类分析;
3.1)最近邻样本属性极值对区间的约束:在最近邻样本集中,选取缺失属性的数据,以缺失属性的最小值与最大值构造属性区间[Min,Max],将由属性误差均值绝对值构造的属性区间[x-e,x+e]与属性最小值最大值构造的属性区间[Min,Max]取交,得到新的区间[min,max]作为属性估值区间;如果,两个区间不存在交集,说明不完整数据样本点很可能是...

【专利技术属性】
技术研发人员:张利侯晴王彦捷宣伟宏张皓博
申请(专利权)人:辽宁大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1