一种K-means聚类的初值选择方法技术

技术编号:13088239 阅读:166 留言:0更新日期:2016-03-30 18:03
一种K-means聚类的初值选择方法,解决了K-means容易陷入局部极值、聚类结果不稳定、严重依赖初始聚类中心的问题。K-means聚类的初值通常是采用抽样的方法从数据集中获取。为了提高K-means的稳定性,需要为K-means提供质量更好的抽样。传统的解决方法计算复杂度偏高,而且总是拒绝最优的抽样结果。本发明专利技术充分考虑理想抽样的空间分布特点,采用样本之间距离的总体水平结合最小距离来评价随机抽样的质量。通过多次抽样,选择评价指标相对最优的抽样结果作为K-means的初值。新的K-means初值选择方法计算复杂度低,能够很容易捕捉到多次采样中随机出现的最好结果,从而为K-means提供相对更好的初值所需的数据对象,有效降低K-means陷入局部最优的概率,最终提高K-means聚类结果稳定性。

【技术实现步骤摘要】

本专利技术设及机器学习、模式分类、数据挖掘等分类领域,具体设及数据挖掘领域中 的划分聚类方法。
技术介绍
聚类(clustering)是一种无监督的数据分析方法,主要处理没有先验信息的数 据,广泛用于数据挖掘领域。 -般认为将物理或抽象的数据对象集合分成由相似的数据对象组成的多个分组 (group)或者簇(cluster)的过程被称为聚类,参见图1。图1是具有4个自然簇的二维数据, 每个颜色代表一个自然分组。 由聚类所生成的分组或者簇是一组数据对象的集合,同一个分组或者簇中的数据 对象彼此相似,不同分组或者簇中的数据对象彼此相异。簇内数据对象越相似,聚类效果越 好。 目前发展起来的聚类方法有很多种,大抵可W分为层次聚类和划分聚类两种。其 中划分聚类方法简洁高效,伸缩性强,因而也备受青睐。K-means是划分聚类中最典型的方 法,它在数据分析上的应用也最为普遍。 K-means的基本原理如下: 首先确定聚类结果需要的分组数量k;数据对象与均值中屯、的相似性是通过欧氏距离d度量: d= I I yt-Oi I 12,(1-1) 接下来根据η个数据对象的分组情况,可W计算出各个簇的均值中屯、(means)作为 新的聚类中屯、。通常新的中屯、会偏离初始中屯、的位置,表示聚类中屯、被更新。 根据分类前的聚类中屯、和聚类后的聚类中屯、分别计算由重构误差EU)定义的目 标函数: 通常,分类后目标函数的值会减小,表明新的分组能使重构误差变小。 按照新的聚类中屯、重新对数据对象进行分类,并对聚类中屯、进行更新。 重新计算分类后的目标函数值。 如果目标函数值不再改变,则停止迭代,否则重复上述过程。 聚类的结果使得分组内部的数据对象尽可能紧凑而内聚,分组之间彼此分离。 K-means聚类的优点很多,但也有明显的缺点,例如它的聚类效果不稳定,严重依 赖于初值的选择。如果选定的初值碰巧来自于某一个自然分组,那么K-means很可能收敛于 局部最优,从而无法得到令人满意的聚类,参见图2和图3。图2中标识出有两个被选作初值 的数据对象落入了通过一簇C中,图3是K-means在此初值上给出的一个聚类结果。因为初值 选择不好,结果自然簇C被分裂,而自然簇B、D被合并。
技术实现思路
解决K-means聚类问题的主要思想就是希望选定的初值在多维空间彼此分离,距 离越大越好,W免选作初值的数据对象因距离短而落入同一个自然簇。 -个广受业界认可的方法是通过距离约束来选择初值。前两个初值选择数据集中 相距最远的两个数据对象,其后选择的初值都是距离已选作初值的数据对象最远的数据对 象。此法可W让选作初值的数据对象彼此远离,从而降低K-means聚类陷入局部最优的概 率。但是运样做也有明显的缺点,其一,该法确定数据集中最远的两个数据对象需要消耗0 (η 2)级别的时间,确定其余k-2个数据对象,需要耗费的时间为0化Xn),如果2%,则该环节 的时间复杂度的下界是Ω化X2k),因为2<k?n,总的时间开销为0(n 2),计算量特别巨大, 严重削弱了 K-means的伸缩性,无法应对大数据的处理需求;其二,该法总是拒绝最优的随 机初值。例如,最优的初值应该是距离自然簇均值中屯、最近的数据对象。如果该法首先确定 了前两个可W作为初值的数据对象,那么运两个数据对象肯定落在簇的边界区域,运样才 能保证距离最远,但也因此决定了该法不能选中距离自然簇均值中屯、最近的数据对象。 如果第一个初值随机选择,其它各个初值按照与已选定数据对象最远距离的原则 确定,那么可W把计算复杂度降下来,例如时间复杂度为Ω化X2k),但仍然很大。按照运样 的策略简化处理,假设第一初值非常幸运地选中了一个距离某自然簇均值中屯、最近的数据 对象,那么其它依次被选中的数据对象都很可能落在簇的边界区域,而不会是距离其它自 然簇均值中屯、最近的数据对象。参见图4,如果随机选中数据对象化,它恰巧是均值中屯、,那 么根据距离约束条件,下一个被选择的数据对象最可能是化,为了保证其距离化最大,它必 须处在自然簇的边缘区域。实际上,随机抽样选中最理想初值的概率并不为零,然而该方法 选中最优初值的可能性却为零。 为此,本专利技术设计实现了一种新的K-means初值选择方法。 K-means初值随机选择是对样本集的一次抽样(sampling)。对于规模为η的独立同 分布数据集X=lxt}Wt=i,令每个自然分组(用Gi表示第i个分组)的概率为P(Gi)。一个好的抽 样要求样本均匀地来自各个自然簇,样本集中来自第i个自然簇Gi的样本概率最好等于P (Gi),然而实际抽样很难满足运样的要求。将选择的数据对象尽可能彼此远离,就是希望抽 取出来的样本来自于不同的簇。因此,样本之间的的距离远近可W作为度量样本集优劣的 一个标准。令dij代表数据对象之间的欧氏距离,1 y含k,1 y非,i辛j。样本之间距离的总 体水平可W用样本集中样本间的距离的总和来衡量,也可W采用距离的期望dave:(1-4)[002引 其中,dij= I |xi-xj| |2。 实际抽样中,有些样本间的距离明明很小,但因为个别样本间距离偏大而造成距 离期望仍然很大,运样的样本集如何被发现并避免将其作为K-means聚类的初值呢? 考虑到随机抽样中存在的运种情况,只重视距离期望dave是不够的,为此需要引入 新的评价指标"最小距离"。使用dmin对抽样中存在的最小距离进行定义: 成耐=巧戸{而I i羊々. (1-5)当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种K‑means聚类的初值选择方法,其特征在于以下步骤:(1)选择k个初始聚类中心:从包含有n(n∈N)个数据对象的数据集X={xt}nt=1中选择包含有k个数据对象的子集S={xi}ki=1作为K‑means聚类的初值;xt表示数据集中第t个数据对象,k≥2;做M次规模为k的随机抽样,0<M且M∈N,组成M个样本集;每个样本集包含k个样本;(2)根据式(2‑1)计算每个样本集Sm对应的质量函数Qm(d),1≤m≤M,以此评价样本集Sm的质量;(3)按照式(2‑2)选择具有最大Q(d)值的样本集Sg,1≤g≤M,作为K‑means的初值;Q(d)=2k(k-1)Σi=1kΣj=1k(dij)×mini,j{dij},i≠j---(2-1)]]>式(2‑1)中的Q(d)是样本集的质量评价函数,dij表示第i个和第j个样本之间的欧氏距离,dij=||xi‑xj||2,1≤i≤k,1≤j≤k,i≠j,是计算样本间欧氏距离的期望,mini,j{dij}是计算样本间的最小距离。Sg=argmaxmQm(d)---(2-2)]]>式(2‑2)中的Sg代表具有最大Q(d)值的样本集。...

【技术特征摘要】

【专利技术属性】
技术研发人员:卢志茂范冬梅姚念民谭国真高振国
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1