基于熵权重的全局K-均值聚类方法技术

技术编号:6881598 阅读:298 留言:0更新日期:2012-04-11 18:40
一种基于熵权重的全局K-均值聚类方法。其实现过程为:首先将数据聚为一类,其最佳聚类中心为所有数据的质心,接着通过计算求出目标函数最小的数据点并将该数据点作为下一类的初始聚类中心,再利用带有熵权重的K-均值方法迭代更新得到聚为两类时的最佳聚类中心,采用同样的方法依次增加聚类中心数进行更新迭代直到聚完设定的K类为止,这样就完成了将所有数据点聚到K类的整个过程。本发明专利技术.将全局K-均值方法与带有熵属性的K-均值相结合,构造了一种新的基于熵权值的全局K-均值聚类方法,聚类结果十分的稳定,通过与几种K-均值类聚类方法的实验结果进行比较,证明了本发明专利技术得到的聚类方法的有效性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及一种新的聚类方法。具体地说是提出了一种基于熵权重的全局K-均值聚类方法,用于解决聚类中常见的K-均值类方法的聚类准确度不高和聚类结果不稳定的问题,在提高了方法的聚类准确度的同时得到了很稳定的聚类结果。
技术介绍
聚类就是将一组样本划分到各个类中的一个过程,从而使得类内距离最小化,类间距离最大化,即同一类中的样本尽可能的相似,而不同类中的样本尽可能的不同。聚类在数据挖掘,统计学,机器学习,空间数据库技术,生物学以及市场营销中起着很重要的作用。近些年,在聚类的很多应用领域中数据变得越来越复杂。一个目标经常会用很多个属性特征来描述,而对于聚类而言,有些属性起着比较重要的作用,而另外一些属性则只有很小的作用,甚至不影响对目标的聚类。目前很多(基于距离的)聚类方法对于这些复杂的多维数据聚类不是很有效的。这是因为K-均值类方法采用的是单纯的欧式距离度量方法,即计算每个对象到各个聚类中心的欧式距离,离哪个聚类中心最近则属于哪一类,很明显这种计算方法将目标的每个属性对聚类的重要性简单的视为相等,而实际上是各不相同的,所以特别当处理的是多维复杂数据的时候,这种传统的K-均值方法就不是很有效了。目前主要有两种技术可以解决这个问题1.特征转移技术;2.特征权重技术也可以称为特征选择技术。一般来说,特征转移技术对于存在大量属性对于聚类无关的这种情况不适应。特征权重技术即不同属性对于聚类的重要性和不同样本对于每一类所起的作用都是不同的。它主要分为两个方向有监督的方法和无监督的方法。在早期,提出了很多有监督特征权重的方法。近些年来,提出了很多无监督的特征权重方法。因为这些方法很多都是基于K-均值的处理过程,所以基本都是K-均值类方法。不同的是,在K-均值的每次迭代中,都引入了计算属性权重值的步骤来优化权值和建立类别。我们主要研究了无监督的特征权重技术,首先对其中一种经典的LAW-K-均值 (局部属性权值K-均值)方法进行深入研究。LAW-K-均值方法是在K-均值基础上的一种局部属性权重方法。为了确定目标属于哪一类,该方法采用权重差异测试方法来对每一类的重要属性进行分组。之后又有一些学者对该方法进行了一些改进。H. Friguiand和 0. Nasraoui引入了每一个目标属于每一类的程度以及每一类的每一个属性对于聚类的作用。Liping Jing,,Michael K. Ng等人提出了一种熵权重K-均值方法,该方法采用属性权重的熵来表示属性对于识别每一类所起的作用。iTao ying Li和Yan Chen通过对目标函数的修改而拓展了熵属性权重方法。我们主要对基于熵权重的k均值方法进行研究。分析该方法的优势与劣势,然后对其进行改进。下面深入地介绍两种主要的相关方法。1.基于熵权重的K-均值方法通过以上的介绍和分析,我们可以看出,基于熵权重的K-均值方法是一种基于 K-均值的方法,通过在该方法中引入属性权重的熵,从而使得方法的性能有了一定的提高,但是这种方法也是随机的选择初始聚类中心,所以聚类结果的好坏依赖于初始聚类中心的选择,依然存在对初始聚类中心敏感而导致其聚类结果不是很稳定。而且,基于熵的K-均值方法中熵权重的确定也取决于初始点的选择,这就使得该方法的聚类结果更易受到初始聚类中心的影响而变得更加的不稳定。所以我们要想使聚类的效果既保持很高的准确度, 同时又很稳定,就要试图使聚类中心的选择不再是随机确定的,而是根据一定的数学原理推导出来的合理的初始中心的选择方法。2.全局K-均值2002年A. Likas等人提出了全局K-均值方法。该方法与K-均值方法的不同之处在于初始聚类中心点的选择,但都采用K-均值进行聚类中心的更新。全局K-均值采用一种确定性地方法而不是随机选取来产生初始聚类中心,所以全局K-均值方法不依赖于任何的初始参数值。Global开始只确定一个聚类中心,通过选取所有点的中心作为第一个初始的聚类中心,再通过K-均值更新,直到不再变好而停止更新,然后再选出第二个聚类中心,选取所有点中对应的聚类错误最小的那个点作为第二个聚类中心,再采用K-均值进行更新,直到找到K个聚类中心方法就会结束。这种方法因为其初始中心选取的改变使得方法非常稳定,因为所有初始点的选择都是根据同样的原理,所以都是确定性的操作,得到的聚类结果有所改善的同时也非常的稳定。通过上面的分析可以看出,基于熵权重的K-均值方法可以得到较好的聚类结果, 但是其稳定性比较差,而全局K-均值得到的结果非常的稳定并且聚类准确度有所提高。如果将基于熵权重的K-均值聚类方法与全局K-均值方法进行结合构造出新的聚类方法,可以通过确定性的选取初始聚类中心的方法来解决对初始点敏感这一瓶颈问题,又通过引入熵权重来提高对多维数据的聚类效果。
技术实现思路
本专利技术所要解决的技术问题是,针对熵权重的K-均值方法单独使用稳定性比较差的不足,为了提高对多维数据聚类的准确度,并增强聚类结果的稳定性,基于多维数据聚类的特点,提出了一种基于熵权重的全局K-均值聚类方法,与其他方法相比,该方法能够获得更高的聚类正确率和稳定性。本专利技术的技术方案是首先将数据聚为一类,其最佳聚类中心就是所有样本的质心,接着将所有数据点都看成下一类的聚类中心,将使得目标函数最小的数据点作为下一类的初始聚类中心,再利用基于熵权重的K-均值方法进行迭代更新得到聚为两类时的最佳聚类中心,采用同样的方法依次增加聚类中心数进行更新迭代直到聚完K类(K为已知的聚类个数)为止,这样就完成了将所有样本点聚为K类的整个过程,其具体实现步骤如下1、输入多维样本点Xij,1彡i彡N,1彡j彡M和聚类个数K,其中N表示样本的个数,D表示样本的特征属性个数,Xij表示第i个样本点的第j个属性;2、初始化聚类个数k=l 初始化第1类的特征权重值为;本文档来自技高网
...

【技术保护点】
1.一种基于熵权重的全局K-均值聚类方法,其特征在于:首先将数据聚为一类,其最佳聚类中心为所有样本的质心,接着通过计算求出目标函数最小的样本点并将该数据点作为下一类的初始最优聚类中心,再利用基于熵权重的“K-均值方法”进行迭代更新得到聚为两类时的最佳聚类中心,采用同样的方法依次增加聚类中心数进行聚类,直到聚为设定的K类为止,从而完成将所有数据点聚为K类的整个过程,其具体实现步骤如下:(1)输入多维样本点xij,1≤i≤N,1≤j≤M和聚类个数K,其中N表示样本的个数,xij表示第i个样本点的第j个属性;(2)初始化聚类个数k=1初始化第1类的特征权重值为D和d表示样本的特征属性个数,当k=1时,即聚为一类时,最优的聚类中心是所有样本的质心,所以把所有样本点的质心即均值作为第一类的初始聚类中心,即(3)进行k+1类聚类1)找到第k+1类的初始最优聚类中心:①前k类的聚类中心(Z1,…,Zk)和特征权值[λ1,λ2,…,λk]已求出,将(Z1,…,Zk)作为前k类的最优初始中心;②将所有样本点依次作为第k+1个初始中心,且初始化第k+1类的特征权重值为③以(Z1,…,Zk,Xi)Xi∈X作为聚类中心,对所有样本点进行N次聚类操作:第一步:每次计算出每个样本点和每个聚类中心之间的熵权重欧式距离,通过下式将样本点的熵权重欧式距离进行比较,然后把样本点划分到距离最小的那一类:(math)??(mrow)?(msub)?(mi)w(/mi)?(mi)hi(/mi)?(/msub)?(mo)=(/mo)?(mfencedopen='{'close='')?(mtable)?(mtr)?(mtd)?(mn)1(/mn)?(/mtd)?(mtd)?(mi)if(/mi)?(munderover)?(mi)Σ(/mi)?(mrow)?(mi)j(/mi)?(mo)=(/mo)?(mn)1(/mn)?(/mrow)?(mi)D(/mi)?(/munderover)?(msub)?(mi)λ(/mi)?(mrow)?(mi)k(/mi)?(mo),(/mo)?(mi)j(/mi)?(/mrow)?(/msub)?(msup)?(mrow)?(mo)((/mo)?(msub)?(mi)z(/mi)?(mrow)?(mi)k(/mi)?(mo),(/mo)?(mi)j(/mi)?(/mrow)?(/msub)?(mo)-(/mo)?(msub)?(mi)x(/mi)?(mrow)?(mi)i(/mi)?(mo),(/mo)?(mi)j(/mi)?(/mrow)?(/msub)?(mo))(/mo)?(/mrow)?(mn)2(/mn)?(/msup)?(mo)≤(/mo)?(munderover)?(mi)Σ(/mi)?(mrow)?(mi)j(/mi)?(mo)=(/mo)?(mn)1(/mn)?(/mrow)?(mi)D(/mi)?(/munderover)?(msub)?(mi)λ(/mi)?(mrow)?(mi)h(/mi)?(mo),(/mo)?(mi)j(/mi)?(/mrow)?(/msub)?(msup)?(mrow)?(mo)((/mo)?(msub)?(mi)z(/mi)?(mrow)?(mi)h(/mi)?(mo),(/mo)?(mi)j(/mi)?(/mrow)?(/msub)?(mo)-(/mo)?(msub)?(mi)x(/mi)?(mrow)?(mi)i(/mi)?(mo),(/mo)?(mi)j(/mi)?(/mrow)?(/msub)?(mo))(/mo)?(/mrow)?(mn)2(/mn)?(/msup)?(mo),(/mo)?(mn)1(/mn)?(mo)≤(/mo)?(mi)h(/mi)?(mo)≤(/mo)?(mi)k(/mi)?(mo)+(/mo)?(mn)1(/mn)?(/mtd)?(/mtr)?(mtr)?(mtd)?(mn)0(/mn)?(/mtd)?(mtd)?(mi)otherwise(/mi)?(/mtd)?(/mtr)?(/mtable)?(/mfenced)?(mo)-(/mo)?(mo)-(/mo)?(mo)-(/mo)?(mrow)?(mo)((/mo)?(mn)1(/mn)?(mo))(/mo)?(/mrow)?(/mrow)?(/math)式(1)中参数β=1.8whi表示第i个数据是否属于h类,zh,j表示第h类聚类中心的第j个属性的值,λk,j表示第k个类别第j个属性的权重值,k表示类别,h表示小于类别k的变量;第二步:将聚类中心(Z1,…,Zk,Xi),whi和[λ1,λ2,…,λk+1]代入以下目标函数:(m...

【技术特征摘要】
1. 一种基于熵权重的全局K-均值聚类方法,其特征在于首先将数据聚为一类,其最佳聚类中心为所有样本的质心,接着通过计算求出目标函数最小的样本点并将该数据点作为下一类的初始最优聚类中心,再利用基于熵权重的“K-均值方法”进行迭代更新得到聚为两类时的最佳聚类中心,采用同样的方法依次增加聚类中心数进行聚类,直到聚为设定的K 类为止,从而完成将所有数据点聚为K类的整个过程,其具体实现步骤如下(1...

【专利技术属性】
技术研发人员:于昕焦李成惠转妮刘芳曹宇吴建设王达王爽李阳阳
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:87

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1