基于区域选取初始聚类中心的K-Means改进算法制造技术

技术编号:21772866 阅读:15 留言:0更新日期:2019-08-03 21:53
本发明专利技术公开了基于区域选取初始聚类中心的K‑Means改进算法,提出了基于区域选取初始聚类中心的K‑Means改进算法(K‑MeansDC),将数据集映射到二维坐标系进行区域划分,计算聚类对象在每个区域的sse值与区域样本数所占比例的比值进行升序排序,选取K个靠前的区域的聚类中心作为初始的聚类中心,有效的解决了局部最优的问题;在迭代过程中,每次迭代时抛开每个簇类最外围所占簇类样本数百分之一的点,进行簇内聚类中心的更新,再将所有的数据进行聚类。通过对四组数据集的聚类以及在图像分割上的应用,并与K‑Means、K‑Means++算法进行比较,实验结果表明本文算法有效的提高了算法的稳定性和聚类效果的准确性。

An improved K-Means algorithm for selecting initial clustering centers based on regions

【技术实现步骤摘要】
基于区域选取初始聚类中心的K-Means改进算法
本专利技术属于无监督学习领域,涉及基于区域选取初始聚类中心的K-Means改进算法。
技术介绍
聚类属于无监督学习,其输入是一组未被标记的数据集,聚类根据数据自身的距离或相似度划分为若干组,目标是使组内(内部)距离最小化,组间(外部)距离最大化,1967年由文献1(ArthurD,VassilvitskiiS.k-means++:theadvantagesofcarefulseeding[C].EighteenthAcm-SiamSymposiumonDiscreteAlgo-rithms.SocietyforIndustrialandAppliedMathematics,2007:1027-1035)提出的聚类算法——K-Means算法因为其原理简单、实现容易、快速、伸缩性好等优点在数据领域以及机器学习等领域应用最为广泛。K-Means算法实现步骤中随机性的选取K个初始中心点易造成聚类效果局部最优,导致算法不稳定,聚类准确性下降。针对这一问题,文献2(ArthurD,VassilvitskiiS.k-means++:theadvantagesofcarefulseeding[C].EighteenthAcm-SiamSymposiumonDiscreteAlgo-rithms.SocietyforIndustrialandAppliedMathematics,2007:1027-1035)在K-Means基础上提出了K-Means++算法,使得K个初始聚类中心相隔较远,该算法首先从数据集中随机选取一个样本作为初始聚类中心,计算剩余样本与当前已有聚类中心的最短距离,接着计算每个样本被选为下一个聚类中心的概率,最后按照轮盘法选出下一个聚类中心,不断重复直至选出K个聚类中心。文献3(李金涛,艾萍,岳兆新,etal.基于K-means聚类算法的改进[J].国外电子测量技术,2017(6))提出了基于密度的改进方法,该方法选取数据集中密度最大的点作为第1个聚类中心点,以此为基准,选取离此点最远的点作为第二个中心点,再在剩下的点找距离这两个初始点最远的点作为第三个点,以此类推,直至找到K个初始中心点。除此之外,K-Means算法聚类中心的初始选取和迭代过程的更新都易受到离群点的影响,造成迭代次数增加,聚类效果变差。
技术实现思路
本专利技术的目的在于:提供了基于区域选取初始聚类中心的K-Means改进算法,解决了传统的K-Means算法随机选取K个初始聚类中心易造成聚类局部最优的问题,大大降低了随机性;并且尽可能地降低了迭代过程中离散点对聚类的影响。本专利技术采用的技术方案如下:基于区域选取初始聚类中心的K-Means改进算法:step1:通过A1-A4选取K个初始聚类中心;步骤A1:将数据集中的数据映射到二维坐标系上,形成坐标数据;步骤A2:根据坐标数据在坐标系上的最值形成的区域,将其划分为α*β个小区域,计算每个样本的小区域归属以及每个小区域的样本数目;步骤A3:确定聚类对象,计算每个小区域的中心点和sse值;步骤A4:将每个区域的sse值与区域样本数所占比例的比值进行升序排序,选出靠前的K个区域的中心点作为K个初始聚类中心;step2:针对数据中的每个样本,计算它到K个聚类中心的欧氏距离并将其分到距离最小的聚类中心对应的类中;step3:重新计算K个cluster对应的初始聚类中心,通过步骤B1-B4对步骤A4中的聚类中心进行更新;步骤B1:计算出每个簇类中样本到簇中心的距离,将距离进行排序,选出所占簇内样本数百分之一的距离较大的点,簇类数目不足100的,选出最远的一个点;步骤B2:抛开选出的点进行新的聚类中心的选取;步骤B3:将所有的样本根据新的聚类中心重新进行聚类;步骤B4:循环迭代步骤B1-B3,直到聚类完成。传统的K-Means算法随机选取得K个初始聚类中心易造成聚类局部最优;并且在迭代过程中对数据集中的离群点很敏感,会造成迭代次数增加,聚类效果变差。本专利技术对上述两个不足之处,提出了基于区域选取初始聚类中心的K-Means改进算法(K-MeansDC算法),将数据集映射到二维坐标系进行区域划分,计算聚类对象在每个区域的sse值与区域样本数所占比例的比值进行升序排序,选取K个靠前的区域的聚类中心作为初始的聚类中心,有效的解决了局部最优的问题;在迭代过程中,每次迭代时抛开每个簇类最外围所占簇类样本数百分之一的点,进行簇内聚类中心的更新,再将所有的数据进行聚类。通过对四组数据集的聚类以及在图像分割上的应用,并与K-Means、K-Means++算法进行比较,实验结果表明本文算法有效的提高了算法的稳定性和聚类效果的准确性。进一步在步骤A1中,假设数据集D={x1,x2,…,xm},将数据集D进行标准化减少后续计算量,再对标准化后的数据集进行降二维,或者选择与数据集相关的两个特征作为二维坐标上的坐标数据,这个坐标数据与数据集D里的数据一一对应,将数据集D中的样本数据映射到二维坐标系上;坐标数据形成点集合U={(xi,xj)},其中xi,xj是有m个属性构成的向量,即xi=(xi1,xi2,…,xim),xj=(xj1,xj2,…,xjm)。进一步在步骤A2中,首先,根据公式(1)(2)(3)(4)计算出坐标数据中的最值:Maxxi=max{xi}(1)Maxxj=max{xj}(2)Minxi=min{xi}(3)其中Maxxi,Maxxj,Minxi,Minxj分别代表xi,xj中的最大值和最小值;其次,通过xi,xj的最值差在二维坐标系中构建了一个区域范围,将其划分为α*β个小区域,可以根据公式(5)计算单位区域的长度和公式(6)计算单位区域的宽度:其中L是单位区域的长,W是单位区域的宽,k≤α*β且α*β接近于K;最后,根据公式(7)算出每个样本的区域归属并通过遍历记录每个区域样本数目:其中Si表示当前数据集的样本所属的区域,0≤n<α*β,(a,b)代表在二维空间的位置。进一步在步骤A3中,首先,通过公式(8)计算每个区域的中心点,即质点。其中υn表示每个区域的质点。Tn表示要聚类的对象,可以是标准化降维后的坐标数据Sn,亦可以是坐标数据对应的数据集D中原本的数据;最后,通过公式(9)计算每个区域的sse值:其中,En代表每个区域的SSE值,dist表示样本到它所属区域质点的距离。进一步在步骤A4中,首先通过公式(10),计算每个区域的sse与区域样本数所占比例的比值γn,这样可以有效避免区域样本数少sse值小造成的局部最优的情况:其次,将γn中的值进行升序排序,选取靠前的K个区域对应的质点作为初始的K个聚类中心;最后,输出K个初始聚类中心。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1.基于区域选取初始聚类中心的K-Means改进算法,通过数据集区域的划分,选取初始K个初始聚类中心;降低传统K-Means算法随机性对聚类效果的影响,提高算法的稳定性。2.基于区域选取初始聚类中心的K-Means改进算法,每次迭代时抛开每个簇类最外围所占簇类样本数百分之一的点,进行簇内聚类中心的更新,再将所有的数据进行聚类。降低了聚类过程中离散点对聚类的影响,本文档来自技高网
...

【技术保护点】
1.基于区域选取初始聚类中心的K‑Means改进算法,其特征在于:step1:通过A1‑A4选取K个初始聚类中心;步骤A1:将数据集中的数据映射到二维坐标系上,形成坐标数据;步骤A2:根据坐标数据在坐标系上的最值形成的区域,将其划分为α*β个小区域,计算每个样本的小区域归属以及每个小区域的样本数目;步骤A3:确定聚类对象,计算每个小区域的中心点和sse值;步骤A4:将每个区域的sse值与区域样本数所占比例的比值进行升序排序,选出靠前的K个区域的中心点作为K个初始聚类中心;step2:针对数据中的每个样本,计算它到K个聚类中心的欧氏距离并将其分到距离最小的聚类中心对应的类中;step3:重新计算K个cluster对应的初始聚类中心,通过步骤B1‑B4对步骤A4中的聚类中心进行更新;步骤B1:计算出每个簇类中样本到簇中心的距离,将距离进行排序,选出所占簇内样本数百分之一的距离较大的点,簇类数目不足100的,选出最远的一个点;步骤B2:抛开选出的点进行新的聚类中心的选取;步骤B3:将所有的样本根据新的聚类中心重新进行聚类;步骤B4:循环迭代步骤B1‑B3,直到聚类完成。

【技术特征摘要】
1.基于区域选取初始聚类中心的K-Means改进算法,其特征在于:step1:通过A1-A4选取K个初始聚类中心;步骤A1:将数据集中的数据映射到二维坐标系上,形成坐标数据;步骤A2:根据坐标数据在坐标系上的最值形成的区域,将其划分为α*β个小区域,计算每个样本的小区域归属以及每个小区域的样本数目;步骤A3:确定聚类对象,计算每个小区域的中心点和sse值;步骤A4:将每个区域的sse值与区域样本数所占比例的比值进行升序排序,选出靠前的K个区域的中心点作为K个初始聚类中心;step2:针对数据中的每个样本,计算它到K个聚类中心的欧氏距离并将其分到距离最小的聚类中心对应的类中;step3:重新计算K个cluster对应的初始聚类中心,通过步骤B1-B4对步骤A4中的聚类中心进行更新;步骤B1:计算出每个簇类中样本到簇中心的距离,将距离进行排序,选出所占簇内样本数百分之一的距离较大的点,簇类数目不足100的,选出最远的一个点;步骤B2:抛开选出的点进行新的聚类中心的选取;步骤B3:将所有的样本根据新的聚类中心重新进行聚类;步骤B4:循环迭代步骤B1-B3,直到聚类完成。2.根据权利要求1所述的基于区域选取初始聚类中心的K-Means改进算法,其特征在于:在步骤A1中,假设数据集D={x1,x2,…,xm},将数据集D进行标准化减少后续计算量,再对标准化后的数据集进行降二维,或者选择与数据集相关的两个特征作为二维坐标上的坐标数据,这个坐标数据与数据集D里的数据一一对应,将数据集D中的样本数据映射到二维坐标系上;坐标数据形成点集合U={(xi,xj)},其中xi,xj是有m个属性构成的向量,即xi=(xi1,xi2,…,xim),xj=(xj1,xj2,…,xjm)...

【专利技术属性】
技术研发人员:姚红邓川
申请(专利权)人:电子科技大学成都学院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1