基于随机子空间的高维数据软硬聚类集成方法技术

技术编号：14690816 阅读：77 留言：0更新日期：2017-02-23 13:24

本发明专利技术公开一种基于随机子空间的高维数据软硬聚类集成方法，包括以下步骤为：(1)输入高维数据集；(2)数据归一化；(3)产生随机子空间；(4)kmeans和fuzzy cmeans聚类；(5)生成融合矩阵；(6)使用聚类有效性指标得出最优聚类数目；(7)构造决策属性集；(8)改进粗糙集属性约简，得到精简融合矩阵；(9)一致性函数划分；(10)聚类纯净率。本发明专利技术利用随机子空间解决了高维数据难处理的问题；利用软聚类和硬聚类的结合，充分利用原始数据和中间结果信息；并对中间结果冗余属性约简，在提高聚类准确率的同时也提高聚类速度；解决了现有技术中对聚类信息的充分利用以及冗余信息去除的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习领域，尤其涉及一种基于随机子空间的高维数据软硬聚类集成方法。
技术介绍
不同的数据源采用不同的聚类算法，会得到不同的聚类结果。而将这种聚类结果利用聚类集成框架形成统一结果的效果显著，越来越受到学术界的关注和研究。聚类集成的方法成功地应用在数据挖掘领域，例如噪声数据挖掘、异源数据挖掘、数据分布挖掘、分类数据挖掘和时序数据挖掘等。并且在生物信息、信息检索、决策判定和影像处理等方面也有很好的应用。目前，Yu等人提出不同的聚类集成框架的方法，如基于三谱聚类算法的混合聚类框架和基于聚类集成从基因表达数据中对癌症机理的知识发现。Carpineto等人提出基于概率索引的聚类集成框架，并应用于标题检索领域中。在很多应用中，相比于单一的聚类算法，聚类集成方法在聚类结果上有着更好的准确性、鲁棒性和稳定性。目前聚类集成的办法分为两大类，硬聚类集成方法和软聚类集成方法。硬聚类集成方法在算法集成的过程中所采用的方法均为硬聚类算法。目前也有很多关于如何利用不同的一致性函数得到鲁棒性和稳定性更强的结果研究，例如使用相似矩阵划分，图切割，基于权重分割，关联分割等一致性函数。目前也有使用不同的技术来产生不同的聚类结果，增加结果多样性有助于一致性函数的最终结果更加有效。例如使用随机重采样，随机映射技术，随机初始化技术等等。目前有研究将先验知识融入集成框架中，也有研究将半监督的办法融入集成框架当中，不同的硬聚类算法适应于不同的数据集上，然而他们并没有考虑到与软聚类的结合。软聚类使用的是模糊聚类的办法。目前软聚类集成框架也有很多，例如，Yu等人提出基于软聚类集成框架的肿瘤...
基于随机子空间的高维数据软硬聚类集成方法

【技术保护点】
一种基于随机子空间的高维数据软硬聚类集成方法，其特征在于，包括如下步骤：S1、输入高维数据集，将其进行归一化；S2、使归一化后的高维数据集产生随机子空间；S3、对子空间进行聚类，得到聚类结果矩阵；S4、将聚类结果矩阵进行合并，生成融合矩阵；S5、根据融合矩阵，使用聚类有效性指标得出最优聚类数目；S6、使用融合矩阵和最优聚类数目作为参数，构造决策属性集；S7、将融合矩阵作为条件属性集，根据决策属性集，对融合矩阵进行改进粗糙集属性约简，得到精简融合矩阵；S8、使用精简融合矩阵和真实聚类数目作为参数进行聚类，得到聚类结果矩阵，根据聚类结果矩阵确定最终聚类结果；S9、计算最终聚类结果与真实聚类结果的纯净率。

【技术特征摘要】
1.一种基于随机子空间的高维数据软硬聚类集成方法，其特征在于，包括如下步骤：S1、输入高维数据集，将其进行归一化；S2、使归一化后的高维数据集产生随机子空间；S3、对子空间进行聚类，得到聚类结果矩阵；S4、将聚类结果矩阵进行合并，生成融合矩阵；S5、根据融合矩阵，使用聚类有效性指标得出最优聚类数目；S6、使用融合矩阵和最优聚类数目作为参数，构造决策属性集；S7、将融合矩阵作为条件属性集，根据决策属性集，对融合矩阵进行改进粗糙集属性约简，得到...

【专利技术属性】
技术研发人员：余志文，陈洁彦，马帅，韩国强，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人