【技术实现步骤摘要】
一种基于双边集成的聚类方法
本专利技术涉及数据挖掘中的聚类领域,着重设计一种基于将样本和基聚类构建二部图,通过对样本和基聚类同时聚类直接得到最终的聚类结果的双边集成聚类方法。
技术介绍
随着网络技术、数据存储和数据采集能力的快速发展,每天都会产生大量的数据,如何从这些大量的数据中提取出有价值的信息就变的极其不容易。在大数据时代聚类算法已经成为获取有用信息不可或缺的重要手段。无论是什么聚类算法都有其优点和缺点,没有单一的聚类算法能够处理所有类型的数据结构和群集形状。对于一个给定的数据集,如果是毫无先验知识的情况下,这就会很难选择哪种聚类算法来完成给定的聚类目标。集成聚类方法的提出为数据的挖掘提供了一个更好途径,能够很好的克服聚类算法中的一些不足。集成聚类主要是结合了集成学习的思想,首先运行聚类算法来获取多个基聚类,然后通过一致性集成得到集成聚类结果。本文对集成聚类算法的原理和方法进行了深入的研究。目前已有许多国内外学者提出了不同的集成聚类方法。大多数集成聚类方法都是基于图划分的方法,但是几乎所有的基于图划分的集成聚类方法,集成聚类得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散—连续—离散的转变。这就会使得最终得到的聚类结果与真实结果有较大的偏差。
技术实现思路
为克服上述现有方法的不足,本专利技术提出了一种基于双边集成聚类方法,简称为CEBKM。本专利技术的目的是,针对基于图划分的集成聚类方法,在构建图的过程中大部分方法只考虑样本或者基聚类之间 ...
【技术保护点】
1.一种基于双边集成聚类方法,其特征在于,包括以下步骤:(1)通过对给定数据集运行多次k-means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果。/n
【技术特征摘要】
1.一种基于双边集成聚类方法,其特征在于,包括以下步骤:(1)通过对给定数据集运行多次k-means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果。
2.根据权利要求1所述的基于双边集成聚类方法,其特征在于,所述步骤(1)中,对于给定的数据集X=[x1,x2,x3,x4,x5,x6]运行3次k-means算法,每次聚成3类;
分别将这3次的聚类结果h1=[1,1,2,1,2,3]Th2=[1,2,2,3,3,3]Th3=[1,1,3,2,2,3]T分别转化为指示矩阵并将其作为新数据矩阵W的特征(列);
假设新的数据矩阵W∈Rn×d,通过对其构建邻接矩阵A:
3.根据权利要求书1所述基于双边集成聚类方法,其特征在于,所述步骤(2)中,运用Ncut算法对所构图进行多划分;目标函数如下所示:
由于YTDY是对角矩阵,其对角线元素中每一行的元素有且仅有一个为1,其它为0,而且前n行存储着样本的聚类结果,后d行存储着样本特征的聚类结果;公式(2)可以转化为如下所示:
s.t.Y∈φ(n+d)×c(3)
式中L=D-A,Y=[FT,GT];所以公式(3)可以进一步改写为:
即通过公式(4)目标优化函数可以等效转变成如下所示:
s.t.F∈φn×c,G∈φd×c(5)
上式求解是一个NP问题,所以加入Tr(WTW))和Tr((YTDY)-1FTF(YTDY)-1GTG),公式(5)的目标优化函数可以转变成如下所示:
s.t.F∈φn×c,G∈φd×c,S∈diag(6)
式中W为新的数据矩阵;矩阵里面保存着行(样本)的聚类结果,每一行有且只有一个非零元素1,若第i个样本属于第j个簇,则fij=1,其它则为0,矩阵里面保存着列(特征)的聚类结果,每一行有且只有一个非零元素1,若第i特征属于第j个簇,则gij=1,其它则为0;c为行和列的聚类簇数,S=(YTDY)-1为对角矩阵。
4.根据权利要求书1所述基于双边集成聚类方法,其特征在于,所述步骤(3)通过一个高效的交替优化算法优化变量,并且在此过程中能够同时对样本和基聚类同时聚类,其过程为:
将得到的数据矩阵W构建一个二部图;利用...
【专利技术属性】
技术研发人员:杨辉,朱建勇,彭晗,聂飞平,
申请(专利权)人:华东交通大学,
类型:发明
国别省市:江西;36
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。