一种面向不均衡类簇规模大数据的数据聚类方法技术

技术编号:28623303 阅读:18 留言:0更新日期:2021-05-28 16:19
一种面向不均衡类簇规模大数据的数据聚类方法,包括以下步骤:设定类簇的个数k,各个类簇C

【技术实现步骤摘要】
一种面向不均衡类簇规模大数据的数据聚类方法
本专利技术涉及计算机大数据处理
,具体涉及一种面向不均衡类簇规模大数据的数据聚类方法。
技术介绍
大数据对象具有数据空间分布状态的复杂性,如数据空间分不同大小、不同形态和不同密度数据对象的分布模式,为了能够有效地在数据审问发现客观存在的复杂形态数据对象分布模式,有必要利用高效的属性加权与密度聚类算法,以计算数据空间数据对象的分布密度,确定密度吸引点即极值点和数据对象到密度吸引点的密度,从而实现不同大小、不同形态和不同密度簇的有效聚类,进而实现大量数据的有效挖掘与分析。总而言之,数据的海量性是大数据的重要特征,如何实现大数据空间数据对象的有效聚类分析,不仅是大数据挖掘技术研究的重要内容之一,也是实现“大数据→知识与智慧→价值”转化需要解决的主要问题。
技术实现思路
针对现有技术的不足,本专利技术提供了一种面向不均衡类簇规模大数据的数据聚类方法,克服了现有技术的不足,通过对传统的隶属度计算方法进行改进,让其能自适应地调整对多数类类簇与少数类类簇相邻区域的多数类类簇样本的隶属度,减少对于少数类类簇的隶属度,从而改善算法处理不均衡数据集的聚类效果。为实现以上目的,本专利技术通过以下技术方案予以实现:一种面向不均衡类簇规模大数据的数据聚类方法,包括以下步骤,步骤S01:设定类簇的个数k,各个类簇Ci(i=1,2,…,k)的簇心vi及模糊系数m;步骤S02:计算样本xj与簇心vi的欧氏距离,并根据距离统计该步迭代中类簇Ci所含的样本个数NCi;步骤S03:计算类簇规模的不均衡度,并计算样本的模糊隶属度;步骤S04:计算新的簇心,如果簇心不再发生变化或者达到迭代次数,则算法终止,输出结果;否则继续计算样本与簇心的欧式距离,并循环直至满足终止条件。优选地,所述步骤S03中,样本的模糊隶属度计算方法为,对于数据集中的每个数据点根据如下公式计算该数据点的模糊隶属度:其中,k为类簇的个数,dij是数据xj与簇心vi的欧氏距离。fi为类簇规模的不均衡度。优选地,所述步骤S03中,对类簇规模的不均衡度fi计算方法为:对于各个类簇,根据如下公式计算其不均衡度:其中,表示该步迭代中类簇Ci所含的样本个数。优选地,所述步骤S04中,新的簇心的计算方法为:在计算完成类簇规模不均衡度和样本的模糊隶属度后,应用如下公式计算新的类簇簇心:其中1≤i≤k,m为设定好的模糊系数。本专利技术提供了一种面向不均衡类簇规模大数据的数据聚类方法。具备以下有益效果:通过对传统的隶属度计算方法进行改进,让其能自适应地调整对多数类类簇与少数类类簇相邻区域的多数类类簇样本的隶属度,减少对于少数类类簇的隶属度,从而改善算法处理不均衡数据集的聚类效果。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。图1本专利技术的步骤流程图;图2本专利技术实施例的结构框图;具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述。一种面向不均衡类簇规模大数据的数据聚类方法,包括以下步骤,预设设定数据对象集合U需要划分k个类簇,模糊系数m。步骤201:输入数据集U:U={Xz|z=1,…,N},初始化类簇Ci(i=1,2,…,k)的簇心vi及模糊系数m。步骤202:使用下式计算样本xj与簇心vi的欧氏距离dist(xj,vi);其中和分别为样本xj与簇心vi的横纵坐标;再根据距离统计该步迭代中类簇Ci所含的样本个数步骤203:采用下式计算类簇规模的不均衡度,其中,表示该步迭代中类簇Ci所含的样本个数。采用下式计算样本的模糊隶属度:其中,k为类簇的个数,dij是数据xj与簇心vi的欧氏距离。fi为类簇规模的不均衡度。步骤204:在计算完成类簇规模不均衡度和样本的模糊隶属度后,应用下式计算新的类簇簇心。其中1≤i≤k,m为设定好的模糊系数。步骤205:如果簇心不再发生变化或者达到迭代次数,则算法终止,输出结果;搜则转步骤203。本专利技术通过对传统的隶属度计算方法进行改进,让其能自适应地调整对多数类类簇与少数类类簇相邻区域的多数类类簇样本的隶属度,减少对于少数类类簇的隶属度,从而改善算法处理不均衡数据集的聚类效果。以上实施例仅用以说明本专利技术的技术方案,而非对其限制;尽管参照前述实施例对本专利技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本专利技术各实施例技术方案的精神和范围。本文档来自技高网...

【技术保护点】
1.一种面向不均衡类簇规模大数据的数据聚类方法,其特征在于,包括以下步骤,/n步骤S01:设定类簇的个数k,各个类簇C

【技术特征摘要】
1.一种面向不均衡类簇规模大数据的数据聚类方法,其特征在于,包括以下步骤,
步骤S01:设定类簇的个数k,各个类簇Ci(i=1,2,…,k)的簇心vi及模糊系数m;
步骤S02:计算样本xj与簇心vi的欧氏距离,并根据距离统计该步迭代中类簇Ci所含的样本个数
步骤S03:计算类簇规模的不均衡度,并计算样本的模糊隶属度;
步骤S04:计算新的簇心,如果簇心不再发生变化或者达到迭代次数,则算法终止,输出结果;否则继续计算样本与簇心的欧式距离,并循环直至满足终止条件。


2.根据权利要求1所述的一种面向不均衡类簇规模大数据的数据聚类方法,其特征在于:所述步骤S03中,样本的模糊隶属度计算方法为,
对于数据集中的每个数据点根据如下公式计算该数据点的模糊隶属...

【专利技术属性】
技术研发人员:何盼陈晓峰麻沁甜刘星辰
申请(专利权)人:上海苍阙信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1