【技术实现步骤摘要】
一种改进的二分k-means聚类方法
本专利技术涉及分类方法,特别是一种改进二分k-means聚类方法。
技术介绍
随着当前网络信息的爆炸式增长,在海量的数据中快速的、准确的、有效的获取有用的信息已经成为研究的热点。聚类是指将原本无序的数据集合进行无监督分类的过程。通过聚类算法所生成的簇是一组数据对象的集合,同一个簇中的对象彼此相似,与其他簇中的对象相异。与分类最大不同之处在于,分类是事先已经划分好的类,而聚类所要求划分的类是未知的。聚类是数据挖掘领域的一个分支,也是数据挖掘领域的一个研究热点,对于推动人工智能的发展具有很重要的作用。目前,聚类算法众多,聚类效果差异较大。例如:K-means聚类只能达到局部的最小值,而且受到许多初始条件的影响。传统二分k-means聚类算法可能会产生过多的成员碎片,影响聚类的效果,时间复杂度较高,而且聚类个数的指定和质心的随机选取都影响了聚类效果。就目前而言,聚类最大的难点在于算法的设计上。早期对于聚类算法的研究采用了基于规则的方法,虽然可以解决一些基础简单的问题,但无法才能 ...
【技术保护点】
1.一种改进二分k-means文本聚类方法,其特征在于,所述方法包括以下步骤:/n步骤A:首先设簇C
【技术特征摘要】
1.一种改进二分k-means文本聚类方法,其特征在于,所述方法包括以下步骤:
步骤A:首先设簇Ci内的样本集为{xi1,xi2,...,xim},ci为质心。定义一个测量函数J,公式如下:
步骤B:设数据对象的样本集为X={x1,x2,...,xn}。将初始样本集的中心设置为初始的质心,并加入到簇表S中,并计算J1,设...
【专利技术属性】
技术研发人员:梁琨,叶子,张翼英,
申请(专利权)人:天津科技大学,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。