【技术实现步骤摘要】
一种面向不均衡类簇规模大数据的数据聚类方法
本专利技术涉及计算机大数据处理
,具体涉及一种面向不均衡类簇规模大数据的数据聚类方法。
技术介绍
大数据对象具有数据空间分布状态的复杂性,如数据空间分不同大小、不同形态和不同密度数据对象的分布模式,为了能够有效地在数据审问发现客观存在的复杂形态数据对象分布模式,有必要利用高效的属性加权与密度聚类算法,以计算数据空间数据对象的分布密度,确定密度吸引点即极值点和数据对象到密度吸引点的密度,从而实现不同大小、不同形态和不同密度簇的有效聚类,进而实现大量数据的有效挖掘与分析。总而言之,数据的海量性是大数据的重要特征,如何实现大数据空间数据对象的有效聚类分析,不仅是大数据挖掘技术研究的重要内容之一,也是实现“大数据→知识与智慧→价值”转化需要解决的主要问题。
技术实现思路
针对现有技术的不足,本专利技术提供了一种面向不均衡类簇规模大数据的数据聚类方法,克服了现有技术的不足,通过对传统的隶属度计算方法进行改进,让其能自适应地调整对多数类类簇与少数类类簇相邻区域的多数类类簇样本的隶属度,减少对于少数类类簇的隶属度,从而改善算法处理不均衡数据集的聚类效果。为实现以上目的,本专利技术通过以下技术方案予以实现:一种面向不均衡类簇规模大数据的数据聚类方法,包括以下步骤,步骤S01:设定类簇的个数k,各个类簇Ci(i=1,2,…,k)的簇心vi及模糊系数m;步骤S02:计算样本xj与簇心vi的欧氏距离,并根据距离统计该步迭代中类簇Ci所含的 ...
【技术保护点】
1.一种面向不均衡类簇规模大数据的数据聚类方法,其特征在于,包括以下步骤,/n步骤S01:设定类簇的个数k,各个类簇C
【技术特征摘要】
1.一种面向不均衡类簇规模大数据的数据聚类方法,其特征在于,包括以下步骤,
步骤S01:设定类簇的个数k,各个类簇Ci(i=1,2,…,k)的簇心vi及模糊系数m;
步骤S02:计算样本xj与簇心vi的欧氏距离,并根据距离统计该步迭代中类簇Ci所含的样本个数
步骤S03:计算类簇规模的不均衡度,并计算样本的模糊隶属度;
步骤S04:计算新的簇心,如果簇心不再发生变化或者达到迭代次数,则算法终止,输出结果;否则继续计算样本与簇心的欧式距离,并循环直至满足终止条件。
2.根据权利要求1所述的一种面向不均衡类簇规模大数据的数据聚类方法,其特征在于:所述步骤S03中,样本的模糊隶属度计算方法为,
对于数据集中的每个数据点根据如下公式计算该数据点的模糊隶属...
【专利技术属性】
技术研发人员:何盼,陈晓峰,麻沁甜,刘星辰,
申请(专利权)人:上海苍阙信息科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。