【技术实现步骤摘要】
基于变异系数自动确认簇数量的聚类方法、系统及介质
本专利技术涉及基于变异系数自动确认簇数量的聚类方法、系统及介质。
技术介绍
随着信息技术的迅猛发展,许多行业如商业、企业、科研机构和政府部门等都积累了海量的、不同形式存储的数据资料,这些海量数据中往往隐含着各种各样有用的信息,仅仅依靠数据库的查询检索机制和统计学方法很难获得这些信息,因此迅速发展的还有数据挖掘技术,聚类分析技术是数据挖掘中的一个重要的研究领域,已经被广泛的用在许多应用中,包括模式识别、数据分析、图像处理以及市场研究。聚类分析技术是一种无监督的学习方法,其中基于划分的聚类算法简单并且可以用于各种数据类型,但是需要事先设置簇的数量且对初始聚类中心敏感,k-means++算法对传统的k-means算法进行了改进,但仍然存在人工设置簇的数量的缺陷。
技术实现思路
为了解决现有技术的不足,本专利技术提供了基于变异系数自动确认簇数量的聚类方法、系统及介质,其解决传统的k-means++聚类算法人工设置簇的数量以及初始质心选取不当的缺陷,利用变异系数以及密度指数的概念对基于划分的k-means++聚类算法进行了改进, ...
【技术保护点】
1.基于变异系数自动确认簇数量的聚类方法,其特征是,包括:步骤(1):计算数据集中每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;步骤(2):计算每个数据点与当前已有聚类中心之间的最短距离,然后根据最短距离计算每个数据点被选为聚类中心的概率,最后,按照轮盘法预选聚类中心;所述预选聚类中心的密度指数大于设定阈值;步骤(3):重复步骤(2),直至选择出设定个数的聚类中心,然后根据选择出的初始聚类中心进行k‑means聚类从而产生相应个数的簇;步骤(4):计算平均簇内变异系数和最小簇间变异系数,然后,计算平均簇内变异系数和最小簇间变异系数的 ...
【技术特征摘要】
1.基于变异系数自动确认簇数量的聚类方法,其特征是,包括:步骤(1):计算数据集中每个数据点的密度值,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心;步骤(2):计算每个数据点与当前已有聚类中心之间的最短距离,然后根据最短距离计算每个数据点被选为聚类中心的概率,最后,按照轮盘法预选聚类中心;所述预选聚类中心的密度指数大于设定阈值;步骤(3):重复步骤(2),直至选择出设定个数的聚类中心,然后根据选择出的初始聚类中心进行k-means聚类从而产生相应个数的簇;步骤(4):计算平均簇内变异系数和最小簇间变异系数,然后,计算平均簇内变异系数和最小簇间变异系数的差值,将差值与设定值进行比较,如果差值小于设定值,则将两个簇间变异系数最小的两个簇进行合并;重复步骤(4),直至差值大于等于设定值,则输出聚类结果。2.如权利要求1所述的基于变异系数自动确认簇数量的聚类方法,其特征是,计算数据集中每个数据点的密度值的步骤为:假设数据集(S1,S2,…,Sd)具有d维属性,并且数据空间S=S1×S2×…×Sd是d维数据空间,x∈(x1,x2,…,xd)表示在d维数据空间上数据集中的数据点;首先,设定初始簇的数量k*的值,其中,k1<k*<k2,k1和k2均为大于目标簇的数量;然后,计算数据点x的密度值ρx,并用公式(1)和(2)表示:其中,num为数据点的个数,dxy为数据集中数据点y到数据点x的距离,R为密度范围,f(X)为判断数据点y与数据点x的距离是否小于或等于密度范围R的函数。3.如权利要求1所述的基于变异系数自动确认簇数量的聚类方法,其特征是,根据密度值计算密度指数,选择密度指数最大的数据点作为第一个聚类中心的步骤为:根据密度值ρx计算数据密度指数DI,并将密度指数最大的数据点作为第一个聚类中心:4.如权利要求1所述的基于变异系数自动确认簇数量的聚类方法,其特征是,计算每个数据点与当前已有聚类中心之间的最短距离的步骤为:根据k-means++算法中选择初始聚类中心的方式,对于数据集中的剩余数据点,依次计算该数据点与已经选择出的初始聚类中心的距离,比较选择出最短的距离作为该数据点与当前...
【专利技术属性】
技术研发人员:刘腾腾,曲守宁,张坤,杜韬,王凯,郭庆北,朱连江,王钦,
申请(专利权)人:济南大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。