一种改进的二分k-means聚类方法技术

技术编号：26304906 阅读：34 留言：0更新日期：2020-11-10 20:01

本发明专利技术涉及一种改进二分k‑means聚类方法，其主要技术特点是：利用自下而上的层次聚类改进二分k‑means聚类，聚类过程中无需指定K值个数，一次二分聚类即可获得最小SSE簇，再通过判别条件，使其自动收敛。该方法的聚类性能优于K‑均值聚类算法和二分K‑均值聚类算法，使聚类后的结构更加紧密，簇边界更清晰。根据本发明专利技术实施例的改进二分k‑means聚类方法，通过计算误差平方和SSE衡量该聚类算法性能的优劣。通过层次聚类和二分k‑means聚类结合的改进算法对数据进行多次的聚类，直到收敛，可获得更好的聚类效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种改进的二分k-means聚类方法
本专利技术涉及分类方法，特别是一种改进二分k-means聚类方法。
技术介绍
随着当前网络信息的爆炸式增长，在海量的数据中快速的、准确的、有效的获取有用的信息已经成为研究的热点。聚类是指将原本无序的数据集合进行无监督分类的过程。通过聚类算法所生成的簇是一组数据对象的集合，同一个簇中的对象彼此相似，与其他簇中的对象相异。与分类最大不同之处在于，分类是事先已经划分好的类，而聚类所要求划分的类是未知的。聚类是数据挖掘领域的一个分支，也是数据挖掘领域的一个研究热点，对于推动人工智能的发展具有很重要的作用。目前，聚类算法众多，聚类效果差异较大。例如：K-means聚类只能达到局部的最小值，而且受到许多初始条件的影响。传统二分k-means聚类算法可能会产生过多的成员碎片，影响聚类的效果，时间复杂度较高，而且聚类个数的指定和质心的随机选取都影响了聚类效果。就目前而言，聚类最大的难点在于算法的设计上。早期对于聚类算法的研究采用了基于规则的方法，虽然可以解决一些基础简单的问题，但无法才能...

【技术保护点】
1.一种改进二分k-means文本聚类方法，其特征在于，所述方法包括以下步骤：/n步骤A：首先设簇C

【技术特征摘要】
1.一种改进二分k-means文本聚类方法，其特征在于，所述方法包括以下步骤：
步骤A：首先设簇Ci内的样本集为{xi1，xi2，...，xim}，ci为质心。定义一个测量函数J，公式如下：

步骤B：设数据对象的样本集为X＝{x1，x2，...，xn}。将初始样本集的中心设置为初始的质心，并加入到簇表S中，并计算J1，设...

【专利技术属性】
技术研发人员：梁琨，叶子，张翼英，
申请(专利权)人：天津科技大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人