一种改进的二分k-means聚类方法技术

技术编号:26304906 阅读:34 留言:0更新日期:2020-11-10 20:01
本发明专利技术涉及一种改进二分k‑means聚类方法,其主要技术特点是:利用自下而上的层次聚类改进二分k‑means聚类,聚类过程中无需指定K值个数,一次二分聚类即可获得最小SSE簇,再通过判别条件,使其自动收敛。该方法的聚类性能优于K‑均值聚类算法和二分K‑均值聚类算法,使聚类后的结构更加紧密,簇边界更清晰。根据本发明专利技术实施例的改进二分k‑means聚类方法,通过计算误差平方和SSE衡量该聚类算法性能的优劣。通过层次聚类和二分k‑means聚类结合的改进算法对数据进行多次的聚类,直到收敛,可获得更好的聚类效果。

【技术实现步骤摘要】
一种改进的二分k-means聚类方法
本专利技术涉及分类方法,特别是一种改进二分k-means聚类方法。
技术介绍
随着当前网络信息的爆炸式增长,在海量的数据中快速的、准确的、有效的获取有用的信息已经成为研究的热点。聚类是指将原本无序的数据集合进行无监督分类的过程。通过聚类算法所生成的簇是一组数据对象的集合,同一个簇中的对象彼此相似,与其他簇中的对象相异。与分类最大不同之处在于,分类是事先已经划分好的类,而聚类所要求划分的类是未知的。聚类是数据挖掘领域的一个分支,也是数据挖掘领域的一个研究热点,对于推动人工智能的发展具有很重要的作用。目前,聚类算法众多,聚类效果差异较大。例如:K-means聚类只能达到局部的最小值,而且受到许多初始条件的影响。传统二分k-means聚类算法可能会产生过多的成员碎片,影响聚类的效果,时间复杂度较高,而且聚类个数的指定和质心的随机选取都影响了聚类效果。就目前而言,聚类最大的难点在于算法的设计上。早期对于聚类算法的研究采用了基于规则的方法,虽然可以解决一些基础简单的问题,但无法才能够根本上投入使用,后本文档来自技高网...

【技术保护点】
1.一种改进二分k-means文本聚类方法,其特征在于,所述方法包括以下步骤:/n步骤A:首先设簇C

【技术特征摘要】
1.一种改进二分k-means文本聚类方法,其特征在于,所述方法包括以下步骤:
步骤A:首先设簇Ci内的样本集为{xi1,xi2,...,xim},ci为质心。定义一个测量函数J,公式如下:



步骤B:设数据对象的样本集为X={x1,x2,...,xn}。将初始样本集的中心设置为初始的质心,并加入到簇表S中,并计算J1,设...

【专利技术属性】
技术研发人员:梁琨叶子张翼英
申请(专利权)人:天津科技大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1