一种基于用户数据分布的K-means方法技术

技术编号:28472334 阅读:56 留言:0更新日期:2021-05-15 21:40
本申请公开了一种基于用户数据分布的K

【技术实现步骤摘要】
一种基于用户数据分布的K

means方法


[0001]本申请涉及数据聚类
,尤其涉及一种基于用户数据分布的K

means方法。

技术介绍

[0002]自MacQueen用数学的方法对K

means进行证明并给出基本步骤,其简单、高效并适用于大规模数据的特性帮助K

means在不同的学科领域被广泛研究与应用,不断优化和改进使得其仍是目前最普遍使用的划分聚类算法之一。但是在面对大规模数据时,容易陷入局部最优、收敛速度慢,以此同时K

means很容易被噪声数据影响,并且聚类数目的不确定和初始聚类中心选取的随机性,大大降低了K

means聚类算法的稳定性、准确率。

技术实现思路

[0003]本申请提供了一种基于用户数据分布的K

means方法,解决了K

means聚类算法的稳定性差且准确率低的技术问题。
[0004]有鉴于此,本申请第一方面提供了一种基于用户数据分布本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于用户数据分布的K

means方法,其特征在于,包括:采用基于数据分布的canopy算法对样本数据进行粗分类,得到聚类数K;采用改进的遗传算法求取所述样本数据中适应度最高的前K个样本点作为初始聚类中心。2.根据权利要求1所述的基于用户数据分布的K

means方法,其特征在于,所述采用基于数据分布的canopy算法对样本数据进行粗分类,得到聚类数K,具体包括:S11:取样本集D中所有样本点的平均值作为中心点canopy;S12:计算所述中心点canopy至所述样本集D中各样本点之间的距离dist,样本点i被归为于聚类canopy的概率prob,以及所述样本集D的所述中心点canopy的密集度dens;S13:根据所述样本点的分布设定概率值P1和P2;S14:根据预置规则将所述密集度与所述概率值P1和P2进行比较,得到聚类canopy半径T2和非聚类半径T1;S15:将dist<T2的第一样本点归类于聚类canopy中,将属于聚类canopy中的样本点求均值,得到均值点,将聚类中靠近所述均值点的样本点作为聚类canopy的中心点;S16:从所述样本集D中剔除所述第一样本点,将T2<dist<T1的样本点组合成新的样本集D1;S17:重复步骤S11

S16,直到新的样本集中没有样本点,则得到K个聚类canopy。3.根据权利要求1所述的基于用户数据分布的K

means方法,其特征在于,所述计算所述中心点canopy至所述样本集D中各样本点之间的距离dist,样本点i被归为于聚类canopy的概率prob,以及所述样本集D的所述中心点canopy的密集度dens,具体为:所述中心点canopy至所述样本集D中各样本点之间的距离dist为:样本点i被归为聚类canopy的概率prob为:所述样本集D的所述中心点canopy的密集度dens为:式中,x
i
为第i个样本点,x
canopy
为中心点canopy;MAX{dist(x1),

,dist(x
n
)}为中心点canopy与样本集D中最远样本点的距离;num(canopy)表示中心点canopy的聚类中样本点个数,num(D)表示样本集D中样本点个数。4.根据权利要求3所述的基于用户数据分布的K

means方法,...

【专利技术属性】
技术研发人员:任熠营陈玉冰张立臣
申请(专利权)人:广东工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1