一种基于双边集成的聚类方法技术

技术编号:25599152 阅读:32 留言:0更新日期:2020-09-11 23:56
本发明专利技术公开了一种基于双边集成聚类方法,包括以下步骤:(1)通过对给定数据集运行多次k‑means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果;本发明专利技术的方法能够充分利用样本、聚类之间的丰富信息,同时对样本和基聚类聚类,当算法收敛时能够直接得到最终的聚类结果。

【技术实现步骤摘要】
一种基于双边集成的聚类方法
本专利技术涉及数据挖掘中的聚类领域,着重设计一种基于将样本和基聚类构建二部图,通过对样本和基聚类同时聚类直接得到最终的聚类结果的双边集成聚类方法。
技术介绍
随着网络技术、数据存储和数据采集能力的快速发展,每天都会产生大量的数据,如何从这些大量的数据中提取出有价值的信息就变的极其不容易。在大数据时代聚类算法已经成为获取有用信息不可或缺的重要手段。无论是什么聚类算法都有其优点和缺点,没有单一的聚类算法能够处理所有类型的数据结构和群集形状。对于一个给定的数据集,如果是毫无先验知识的情况下,这就会很难选择哪种聚类算法来完成给定的聚类目标。集成聚类方法的提出为数据的挖掘提供了一个更好途径,能够很好的克服聚类算法中的一些不足。集成聚类主要是结合了集成学习的思想,首先运行聚类算法来获取多个基聚类,然后通过一致性集成得到集成聚类结果。本文对集成聚类算法的原理和方法进行了深入的研究。目前已有许多国内外学者提出了不同的集成聚类方法。大多数集成聚类方法都是基于图划分的方法,但是几乎所有的基于图划分的集成聚类方法,集成聚类得到的结果并不是最终聚类结果,还需要利用聚类算法来获得最终聚类结果,在整个过程中会使得解由离散—连续—离散的转变。这就会使得最终得到的聚类结果与真实结果有较大的偏差。
技术实现思路
为克服上述现有方法的不足,本专利技术提出了一种基于双边集成聚类方法,简称为CEBKM。本专利技术的目的是,针对基于图划分的集成聚类方法,在构建图的过程中大部分方法只考虑样本或者基聚类之间的信息,而忽略了样本与基聚类之间的潜在信息;同时集成聚类结果还需要对其运行传统的聚类算法得到最终的聚类结果,降低了最终的聚类结果准确率。提出基于双边集成聚类方法,能够充分的利用样本与基聚类之间的丰富信息,而且能够直接得到最终的聚类结果。本专利技术的技术方案是:一种基于双边集成聚类方法,包括以下步骤:(1)通过对给定数据集运行多次k-means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果。所述的基于双边集成聚类方法,所述步骤(1)中,对于给定的数据集X=[x1,x2,x3,x4,x5,x6]运行3次k-means算法,每次聚成3类;分别将这3次的聚类结果h1=[1,1,2,1,2,3]Th2=[1,2,2,3,3,3]Th3=[1,1,3,2,2,3]T分别转化为指示矩阵并将其作为新数据矩阵W的特征(列);假设新的数据矩阵W∈Rn×d,通过对其构建邻接矩阵A:所述的基于双边集成聚类方法,所述步骤(2)中,运用Ncut算法对所构图进行多划分;目标函数如下所示:由于YTDY是对角矩阵,其对角线元素中每一行的元素有且仅有一个为1,其它为0,而且前n行存储着样本的聚类结果,后d行存储着样本特征的聚类结果;公式(2)可以转化为如下所示:式中L=D-A,Y=[FT,GT];所以公式(3)可以进一步改写为:即通过公式(4)目标优化函数可以等效转变成如下所示:上式求解是一个NP问题,所以加入Tr(WTW))和Tr((YTDY)-1FTF(YTDY)-1GTG),公式(5)的目标优化函数可以转变成如下所示:式中W为新的数据矩阵;矩阵里面保存着行(样本)的聚类结果,每一行有且只有一个非零元素1,若第i个样本属于第j个簇,则fij=1,其它则为0,矩阵里面保存着列(特征)的聚类结果,每一行有且只有一个非零元素1,若第i特征属于第j个簇,则gij=1,其它则为0;c为行和列的聚类簇数,S=(YTDY)-1为对角矩阵。所述的基于双边集成聚类方法,所述步骤(3)通过一个高效的交替优化算法优化变量,并且在此过程中能够同时对样本和基聚类同时聚类,其过程为:将得到的数据矩阵W构建一个二部图;利用二部图划分模型,为样本点聚类集合,τc(1≤c≤k)为基聚类的聚类集合,如果给定样本xi·与基聚类集合τm的关联大于与任何其它基聚类集合的关联,则它属于样本集合所以每个样本集合都由基聚类集合确定,同样的,每个基聚类集合同样由样本集合所确定直观看到的是和τc(1≤c≤k)之间存在递归关系,在等式(7)和(8)中描述的关系确定这样构建的二部图是基于对样本和基聚类同时聚类的结构;将数据矩阵W作为双边聚类算法的输入,直接得到最终的聚类结果;双边聚类算法目标函数如下所示:所述的基于双边集成聚类方法,运用交替更新的方法更新F,G,S三个参数;首先固定F,G更新S,将目标函数展开并将其定义为J即:将S的限制条件放宽,并对S求偏导,并令等式为零,即:由式(11)可以得出S=[(FTFGTG)T]-1(FTWG)在F,G更新求解过程中将数据矩阵W分解即:在求解G矩阵的过程中将数据矩阵W分解成m×c列,而在求解F矩阵的过程中则是将数据矩阵W分解成n行。所述的基于双边集成聚类方法,当固定S,F更新G;目标函数可以表示为:式中R=FS,r·k代表矩阵R的第k列。在矩阵G的寻优过程中;即寻找矩阵W分解后的每一列,与矩阵FSGT对应列的最小欧式距离,从而使得目标函数达到最小;由于G为指示矩阵,其中每一行有且只有一个非零元素1;通过矩阵GT的第i列非零元素,选出矩阵R=FS中的第k列,使得r·k与矩阵W中的第i列的欧式距离达到最小值,从而使得目标函数达到最小值。所述的基于双边集成聚类方法,固定S,G更新F;其目标函数可以表示为:式中L=SGT,lk·代表矩阵L的第行;在矩阵F的优化过程中。即寻找矩阵W分解后的每一行,与矩阵FSGT对应行的最小欧式距离,从而使得目标函数达到最小;由于矩阵F中每一行有且只有一个非零元素1;在矩阵F第i行非零元素,选出矩阵L=SGT中的第k行,使得lk·与矩阵W中第i行的欧式距离达到最小值,使得目标函数达到最小值。综上所述,针对基于图划分的集成聚类算法中所构图不能充分的利用样本与基聚类之间的信息,而且不能直接得到最终的聚类结果,提出一种基于双边集成聚类方法,能够充分利用样本、聚类之间的丰富信息,同时对样本和基聚类聚类,当算法收敛时能够直接得到最终的聚类结果。附图说明图1样本x1,x2,x3,x4,x5,x6三次k-means的聚类结果;(a)为第一次的划分结果;(b)为第二次的划分结果;(c)为第三次的划分结果。图2将聚类结果转化为指示矩阵并构造新的数据矩阵;图3分别在数据集(a)Zoo,(b)Yeast,(c)Heart,(d)Ecoli,(e)Crx,(f)Australian上RI的平均值;具体实施方式以下结合具体实施例,对本专利技术进行详细说本文档来自技高网...

【技术保护点】
1.一种基于双边集成聚类方法,其特征在于,包括以下步骤:(1)通过对给定数据集运行多次k-means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果。/n

【技术特征摘要】
1.一种基于双边集成聚类方法,其特征在于,包括以下步骤:(1)通过对给定数据集运行多次k-means算法产生多个基聚类结果,将所得的基聚类结果转化为指示矩阵,并将其作为新矩阵的特征(列),然后将样本和基聚类构建二部图;(2)对所构二部图进行多划分;(3)通过一个高效的交替优化算法优化变量,得到最终的聚类结果。


2.根据权利要求1所述的基于双边集成聚类方法,其特征在于,所述步骤(1)中,对于给定的数据集X=[x1,x2,x3,x4,x5,x6]运行3次k-means算法,每次聚成3类;
分别将这3次的聚类结果h1=[1,1,2,1,2,3]Th2=[1,2,2,3,3,3]Th3=[1,1,3,2,2,3]T分别转化为指示矩阵并将其作为新数据矩阵W的特征(列);
假设新的数据矩阵W∈Rn×d,通过对其构建邻接矩阵A:





3.根据权利要求书1所述基于双边集成聚类方法,其特征在于,所述步骤(2)中,运用Ncut算法对所构图进行多划分;目标函数如下所示:



由于YTDY是对角矩阵,其对角线元素中每一行的元素有且仅有一个为1,其它为0,而且前n行存储着样本的聚类结果,后d行存储着样本特征的聚类结果;公式(2)可以转化为如下所示:



s.t.Y∈φ(n+d)×c(3)
式中L=D-A,Y=[FT,GT];所以公式(3)可以进一步改写为:



即通过公式(4)目标优化函数可以等效转变成如下所示:



s.t.F∈φn×c,G∈φd×c(5)
上式求解是一个NP问题,所以加入Tr(WTW))和Tr((YTDY)-1FTF(YTDY)-1GTG),公式(5)的目标优化函数可以转变成如下所示:



s.t.F∈φn×c,G∈φd×c,S∈diag(6)
式中W为新的数据矩阵;矩阵里面保存着行(样本)的聚类结果,每一行有且只有一个非零元素1,若第i个样本属于第j个簇,则fij=1,其它则为0,矩阵里面保存着列(特征)的聚类结果,每一行有且只有一个非零元素1,若第i特征属于第j个簇,则gij=1,其它则为0;c为行和列的聚类簇数,S=(YTDY)-1为对角矩阵。


4.根据权利要求书1所述基于双边集成聚类方法,其特征在于,所述步骤(3)通过一个高效的交替优化算法优化变量,并且在此过程中能够同时对样本和基聚类同时聚类,其过程为:
将得到的数据矩阵W构建一个二部图;利用...

【专利技术属性】
技术研发人员:杨辉朱建勇彭晗聂飞平
申请(专利权)人:华东交通大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1