一种优化聚类中心的k-means算法制造技术

技术编号:29972443 阅读:26 留言:0更新日期:2021-09-08 09:51
本发明专利技术公开了一种优化聚类中心的k

【技术实现步骤摘要】
一种优化聚类中心的k

means算法


[0001]本专利技术属于图像处理和数据挖掘的
,尤其涉及一种优化聚类中心的k

means算法。

技术介绍

[0002]近几年时间,大数据时代的到来促使机器学习技术飞速发展。聚类分析作为传统机器学习算法中常用方法之一,由于其实用、简单和高效的特性而广受青睐,它已成功应用于许多领域,聚类也是数据挖掘中一个重要的概念,其核心是寻找数据对象中隐藏的有价值的信息。
[0003]K

Means算法作为聚类算法中最流行的算法,相较于其他的聚类算法,K

Means算法以效果较好、思想简单的优点在聚类算法中得到了广泛的应用。但是,K

Means算法也有其自身的局限性,比如算法中聚簇个数k需要事先确定,初始聚类中心由随机选取产生,离群点对聚类结果的影响等。针对上述的缺点,各个领域的学者提出了不同的改进算法。
[0004]现有技术以样本的方差作为选取K

means初始聚类中心的启发信息,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种优化聚类中心的k

means算法,其特征在于,包括以下步骤:步骤1、求出样本数据集X={X1,X2,...,X
n
}的样本均值C和平均距离ad;步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X,C),选择满足d(X
i
,C)≥d(X
j
,C),(i,j=1,2,...,n)的数据对象X
i
,找到该方向位置点并记作O1;步骤3、通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点,并将其放入到集合Z1中,寻找结束后并统计集合Z1中的所包含的数据点个数记作n1,然后判断n1是否大于等于β,其中β为样本集数据点的数目与聚类的簇类数目的比值;若满足条件,则取该集合内的所有样本数据点的均值作为初始聚类中心点;步骤4、计算所有样本集数据对象与方向位置点O1的距离d(X,O1),选择能够满足d(X
i
,C)+d(X
i

【专利技术属性】
技术研发人员:沈学利陈治琦
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1