基于随机子空间的高维数据软硬聚类集成方法技术

技术编号:14690816 阅读:77 留言:0更新日期:2017-02-23 13:24
本发明专利技术公开一种基于随机子空间的高维数据软硬聚类集成方法,包括以下步骤为:(1)输入高维数据集;(2)数据归一化;(3)产生随机子空间;(4)kmeans和fuzzy cmeans聚类;(5)生成融合矩阵;(6)使用聚类有效性指标得出最优聚类数目;(7)构造决策属性集;(8)改进粗糙集属性约简,得到精简融合矩阵;(9)一致性函数划分;(10)聚类纯净率。本发明专利技术利用随机子空间解决了高维数据难处理的问题;利用软聚类和硬聚类的结合,充分利用原始数据和中间结果信息;并对中间结果冗余属性约简,在提高聚类准确率的同时也提高聚类速度;解决了现有技术中对聚类信息的充分利用以及冗余信息去除的问题。

【技术实现步骤摘要】

本专利技术涉及机器学习领域,尤其涉及一种基于随机子空间的高维数据软硬聚类集成方法
技术介绍
不同的数据源采用不同的聚类算法,会得到不同的聚类结果。而将这种聚类结果利用聚类集成框架形成统一结果的效果显著,越来越受到学术界的关注和研究。聚类集成的方法成功地应用在数据挖掘领域,例如噪声数据挖掘、异源数据挖掘、数据分布挖掘、分类数据挖掘和时序数据挖掘等。并且在生物信息、信息检索、决策判定和影像处理等方面也有很好的应用。目前,Yu等人提出不同的聚类集成框架的方法,如基于三谱聚类算法的混合聚类框架和基于聚类集成从基因表达数据中对癌症机理的知识发现。Carpineto等人提出基于概率索引的聚类集成框架,并应用于标题检索领域中。在很多应用中,相比于单一的聚类算法,聚类集成方法在聚类结果上有着更好的准确性、鲁棒性和稳定性。目前聚类集成的办法分为两大类,硬聚类集成方法和软聚类集成方法。硬聚类集成方法在算法集成的过程中所采用的方法均为硬聚类算法。目前也有很多关于如何利用不同的一致性函数得到鲁棒性和稳定性更强的结果研究,例如使用相似矩阵划分,图切割,基于权重分割,关联分割等一致性函数。目前也有使用不同的技术来产生不同的聚类结果,增加结果多样性有助于一致性函数的最终结果更加有效。例如使用随机重采样,随机映射技术,随机初始化技术等等。目前有研究将先验知识融入集成框架中,也有研究将半监督的办法融入集成框架当中,不同的硬聚类算法适应于不同的数据集上,然而他们并没有考虑到与软聚类的结合。软聚类使用的是模糊聚类的办法。目前软聚类集成框架也有很多,例如,Yu等人提出基于软聚类集成框架的肿瘤数据聚类分析。还有研究将其他的模糊理论融入软聚类集成框架中,如模糊图论、模糊相似关系,基于位点和投票机制的模糊一致性函数等。Mirzaei等人提出基于模糊相似关系的层次聚类集成框架。也有研究将粗糙集和粒度计算加入聚类集成框架中。Avogadri等人设计了基于随机映射模糊聚类集成框架来分析DNA微阵列数据分析。综上所述,目前的框架是考虑如何将模糊聚类更好的加入到集成框架中,但是却很少考虑将软聚类和硬聚类同时加入聚类集成框架中。目前的聚类集成也有其一定的局限性。第一,大多数聚类集成框架并没有很好地处理高维数据集的办法。第二,传统的聚类集成框架只是考虑采用硬聚类或者软聚类来进行分析,但是并没有考虑将两者进行结合融入聚类集成框架中。第三,部分的聚类集成办法虽然也考虑了将聚类结果作为新的属性进行聚类集成,但是并没有考虑到这新构造的属性集包含冗余或者噪音属性。并且目前并没有方法在集成框架中消除这些新属性集的冗余属性。
技术实现思路
为了克服现有技术存在的缺点与不足,本专利技术提供一种基于随机子空间的高维数据软硬聚类集成方法,能够解决了以上存在的三点局限性的问题。达到了通过输入高维的数据集,最终获取比传统的单一聚类算法或者目前集成框架对信息更充分地利用以及更好的聚类准确度的效果。。为解决上述技术问题,本专利技术提供如下技术方案:一种基于随机子空间的高维数据软硬聚类集成方法,包括如下步骤:S1、输入高维数据集,将其进行归一化;S2、使归一化后的高维数据集产生随机子空间;S3、对子空间进行聚类,得到聚类结果矩阵;S4、将聚类结果矩阵进行合并,生成融合矩阵;S5、根据融合矩阵,使用聚类有效性指标得出最优聚类数目;S6、使用融合矩阵和最优聚类数目作为参数,构造决策属性集;S7、将融合矩阵作为条件属性集,根据决策属性集,对融合矩阵进行改进粗糙集属性约简,得到精简融合矩阵;S8、使用精简融合矩阵和真实聚类数目作为参数进行聚类,得到聚类结果矩阵,根据聚类结果矩阵确定最终聚类结果;S9、计算最终聚类结果与真实聚类结果的纯净率。进一步地,所述步骤S1中归一化过程具体为:获取第d列属性对应的最大值V(d)max和最小值V(d)min,对第d列的数据值按如下公式进行转换:其中,为第d列第i个数据,为更新后的数值,i∈{1,2,.....,n本文档来自技高网
...
基于随机子空间的高维数据软硬聚类集成方法

【技术保护点】
一种基于随机子空间的高维数据软硬聚类集成方法,其特征在于,包括如下步骤:S1、输入高维数据集,将其进行归一化;S2、使归一化后的高维数据集产生随机子空间;S3、对子空间进行聚类,得到聚类结果矩阵;S4、将聚类结果矩阵进行合并,生成融合矩阵;S5、根据融合矩阵,使用聚类有效性指标得出最优聚类数目;S6、使用融合矩阵和最优聚类数目作为参数,构造决策属性集;S7、将融合矩阵作为条件属性集,根据决策属性集,对融合矩阵进行改进粗糙集属性约简,得到精简融合矩阵;S8、使用精简融合矩阵和真实聚类数目作为参数进行聚类,得到聚类结果矩阵,根据聚类结果矩阵确定最终聚类结果;S9、计算最终聚类结果与真实聚类结果的纯净率。

【技术特征摘要】
1.一种基于随机子空间的高维数据软硬聚类集成方法,其特征在于,包括如下步骤:S1、输入高维数据集,将其进行归一化;S2、使归一化后的高维数据集产生随机子空间;S3、对子空间进行聚类,得到聚类结果矩阵;S4、将聚类结果矩阵进行合并,生成融合矩阵;S5、根据融合矩阵,使用聚类有效性指标得出最优聚类数目;S6、使用融合矩阵和最优聚类数目作为参数,构造决策属性集;S7、将融合矩阵作为条件属性集,根据决策属性集,对融合矩阵进行改进粗糙集属性约简,得到...

【专利技术属性】
技术研发人员:余志文陈洁彦马帅韩国强
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1