基于熵权重的全局K-均值聚类方法技术

技术编号：6881598 阅读：298 留言：0更新日期：2012-04-11 18:40

一种基于熵权重的全局K-均值聚类方法。其实现过程为：首先将数据聚为一类，其最佳聚类中心为所有数据的质心，接着通过计算求出目标函数最小的数据点并将该数据点作为下一类的初始聚类中心，再利用带有熵权重的K-均值方法迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行更新迭代直到聚完设定的K类为止，这样就完成了将所有数据点聚到K类的整个过程。本发明专利技术.将全局K-均值方法与带有熵属性的K-均值相结合，构造了一种新的基于熵权值的全局K-均值聚类方法，聚类结果十分的稳定，通过与几种K-均值类聚类方法的实验结果进行比较，证明了本发明专利技术得到的聚类方法的有效性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种新的聚类方法。具体地说是提出了一种基于熵权重的全局K-均值聚类方法，用于解决聚类中常见的K-均值类方法的聚类准确度不高和聚类结果不稳定的问题，在提高了方法的聚类准确度的同时得到了很稳定的聚类结果。
技术介绍
聚类就是将一组样本划分到各个类中的一个过程，从而使得类内距离最小化，类间距离最大化，即同一类中的样本尽可能的相似，而不同类中的样本尽可能的不同。聚类在数据挖掘，统计学，机器学习，空间数据库技术，生物学以及市场营销中起着很重要的作用。近些年，在聚类的很多应用领域中数据变得越来越复杂。一个目标经常会用很多个属性特征来描述，而对于聚类而言，有些属性起着比较重要的作用，而另外一些属性则只有很小的作用，甚至不影响对目标的聚类。目前很多(基于距离的)聚类方法对于这些复杂的多维数据聚类不是很有效的。这是因为K-均值类方法采用的是单纯的欧式距离度量方法，即计算每个对象到各个聚类中心的欧式距离，离哪个聚类中心最近则属于哪一类，很明显这种计算方法将目标的每个属性对聚类的重要性简单的视为相等，而实际上是各不相同的，所以特别当处理的是多维复杂数据的时候，这种传统的K-均值方法就不是很有效了。目前主要有两种技术可以解决这个问题1.特征转移技术；2.特征权重技术也可以称为特征选择技术。一般来说，特征转移技术对于存在大量属性对于聚类无关的这种情况不适应。特征权重技术即不同属性对于聚类的重要性和不同样本对于每一类所起的作用都是不同的。它主要分为两个方向有监督的方法和无监督的方法。在早期，提出了很多有监督特征权重的方法。近些年来，提出了很多无监督的特征权重方法。因为...

【技术保护点】
１．一种基于熵权重的全局Ｋ－均值聚类方法，其特征在于：首先将数据聚为一类，其最佳聚类中心为所有样本的质心，接着通过计算求出目标函数最小的样本点并将该数据点作为下一类的初始最优聚类中心，再利用基于熵权重的“Ｋ－均值方法”进行迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行聚类，直到聚为设定的Ｋ类为止，从而完成将所有数据点聚为Ｋ类的整个过程，其具体实现步骤如下：（１）输入多维样本点ｘｉｊ，１≤ｉ≤Ｎ，１≤ｊ≤Ｍ和聚类个数Ｋ，其中Ｎ表示样本的个数，ｘｉｊ表示第ｉ个样本点的第ｊ个属性；（２）初始化聚类个数ｋ＝１初始化第１类的特征权重值为Ｄ和ｄ表示样本的特征属性个数，当ｋ＝１时，即聚为一类时，最优的聚类中心是所有样本的质心，所以把所有样本点的质心即均值作为第一类的初始聚类中心，即（３）进行ｋ＋１类聚类１）找到第ｋ＋１类的初始最优聚类中心：①前ｋ类的聚类中心（Ｚ１，…，Ｚｋ）和特征权值［λ１，λ２，…，λｋ］已求出，将（Ｚ１，…，Ｚｋ）作为前ｋ类的最优初始中心；②将所有样本点依次作为第ｋ＋１个初始中心，且初始化第ｋ＋１类的特征权重值为③以（Ｚ１，…，Ｚｋ，Ｘｉ）Ｘｉ∈Ｘ作...

【技术特征摘要】
1. 一种基于熵权重的全局K-均值聚类方法，其特征在于首先将数据聚为一类，其最佳聚类中心为所有样本的质心，接着通过计算求出目标函数最小的样本点并将该数据点作为下一类的初始最优聚类中心，再利用基于熵权重的“K-均值方法”进行迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行聚类，直到聚为设定的K 类为止，从而完成将所有数据点聚为K类的整个过程，其具体实现步骤如下(1...

【专利技术属性】
技术研发人员：于昕，焦李成，惠转妮，刘芳，曹宇，吴建设，王达，王爽，李阳阳，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：87

全部详细技术资料下载我是这个专利的主人