【技术实现步骤摘要】
本专利技术涉及一种聚类算法。特别是涉及一种在不影响聚类效果的基础上缩短其聚类所需时间,选择全局最优解的基于距离权重的全局k-均值聚类算法。
技术介绍
聚类方法是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所组成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此类似,与其他簇中的对象相异。在许多应用中,可以将一些簇中的数据对象作为一个整体来对待。 聚类,就是将数据划分为若干个“簇”,使“簇”之间的距离尽可能的大,“簇”之内的距离尽可能的小。有几种关于簇的定义1,一些相似成员的集合,不同簇中的成员是不相似的。2,簇中两点之间的距离要小于簇中的一点与簇外任一点的距离。聚类不同与分类的基本特征是簇的(最优)数目是不知道的(也许能解决这个问题);关于每个簇可能没有任何先验知识(大部分情况下没有先验知识);聚类结果是动态的。 数据挖掘中聚类算法的应用很广泛。在商务上,聚类能帮助市场分析人员从客户基本库中发现不同的客户群,并且用不同的购买模式来刻画不同的消费群体的特征。在生物学上,聚类能用于帮助推导植物和动物的种类,基因和蛋白质的 ...
【技术保护点】
一种基于距离权重的全局k-均值聚类算法,其特征在于:包括如下步骤:1)计算所有样本点的聚集权重信息聚集权重信息计算公式如下所示,w↓[i]=1/*d↑[2](x↓[i],x↓[j])其中n表示样本点数目,x↓[i]表示第i个样本,x↓[j]表示第j个样本,d(x↓[i],x↓[j])表示i、j两个样本点的距离。2)计算所有样本数据的均值作为第一个簇的聚类中心m↓[1]=1/n*x↓[i]并设置q=1;其中,q代表的是当前已有的聚类中心点的数目。3)判断是否满足终止条件,即判断q+1是否大于k,k=1、2…,若q>k,算法终止,否则,进入下一步骤。4)寻找下一个簇的最佳初始中 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。