【技术实现步骤摘要】
一种优化聚类中心的k
‑
means算法
[0001]本专利技术属于图像处理和数据挖掘的
,尤其涉及一种优化聚类中心的k
‑
means算法。
技术介绍
[0002]近几年时间,大数据时代的到来促使机器学习技术飞速发展。聚类分析作为传统机器学习算法中常用方法之一,由于其实用、简单和高效的特性而广受青睐,它已成功应用于许多领域,聚类也是数据挖掘中一个重要的概念,其核心是寻找数据对象中隐藏的有价值的信息。
[0003]K
‑
Means算法作为聚类算法中最流行的算法,相较于其他的聚类算法,K
‑
Means算法以效果较好、思想简单的优点在聚类算法中得到了广泛的应用。但是,K
‑
Means算法也有其自身的局限性,比如算法中聚簇个数k需要事先确定,初始聚类中心由随机选取产生,离群点对聚类结果的影响等。针对上述的缺点,各个领域的学者提出了不同的改进算法。
[0004]现有技术以样本的方差作为选取K
‑
means初始 ...
【技术保护点】
【技术特征摘要】
1.一种优化聚类中心的k
‑
means算法,其特征在于,包括以下步骤:步骤1、求出样本数据集X={X1,X2,...,X
n
}的样本均值C和平均距离ad;步骤2、根据空间两点间的距离公式计算出所有数据对象与C的距离d(X,C),选择满足d(X
i
,C)≥d(X
j
,C),(i,j=1,2,...,n)的数据对象X
i
,找到该方向位置点并记作O1;步骤3、通过两点间距离公式找到与方向位置点X1的距离小于等于平均距离ad的数据点,并将其放入到集合Z1中,寻找结束后并统计集合Z1中的所包含的数据点个数记作n1,然后判断n1是否大于等于β,其中β为样本集数据点的数目与聚类的簇类数目的比值;若满足条件,则取该集合内的所有样本数据点的均值作为初始聚类中心点;步骤4、计算所有样本集数据对象与方向位置点O1的距离d(X,O1),选择能够满足d(X
i
,C)+d(X
i
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。