一种可交互的大数据并行k-means聚类方法技术

技术编号:20161138 阅读:51 留言:0更新日期:2019-01-19 00:13
本发明专利技术提供一种可交互的大数据并行k‑means聚类方法,本发明专利技术是一种可交互的大数据并行k‑means聚类方法,主要应用在针对大数据集的k‑means聚类,把一个大数据集分割成不同的类,使得同一个类里面的数据对象之间的相似性尽可能的大,同时不在同一个类里面的数据对象之间的差异性尽可能的大,本发明专利技术可提高针对大数据集的k‑means聚类处理的响应时间,另外,在聚类过程中,用户可通过给定聚类差别值约束条件对聚类过程进行干预,本发明专利技术根据类别差异度调整迭代次数,得到满足用户给定聚类差别值约束条件的聚类结果。

【技术实现步骤摘要】
一种可交互的大数据并行k-means聚类方法
本专利技术属于数据挖掘
,具体涉及一种可交互的大数据并行k-means聚类方法。
技术介绍
聚类分析是计算机科学及相关领域中的一个基础问题,在数据挖掘、模式识别、网络、生物信息等许多领域有着广泛的研究和应用。聚类分析就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类,使得同一个类里面的数据对象之间的相似性尽可能的大,同时不在同一个类里面的数据对象之间的差异性尽可能的大。即聚类之后,使得同一类的数据尽量聚集到一起,不同类的数据尽量分离。在许多应用中需要对网页按照其内容进行聚类,或者对用户按照其行为进行聚类。例如,在社交网络中将具有某种关系准则联系在一起的人们划分为一个群体,然后可以针对这个群体预测其购买行为,设计针对性的营销方案等。随着互联网的飞速发展和数据的急剧增长,网络图以及社交网络图变得越来越大,例如,网络图可能包含数万亿条边。聚类计算任务所面临的数据规模越来越庞大,以至于单个节点无法满足数据存储,基于单节点单进程的串行执行方法已不可用。因此,设计云环境下的分布式k-means算法成为了目前亟需解决的问题。K-mean本文档来自技高网...

【技术保护点】
1.一种可交互的大数据并行k‑means聚类方法,其特征在于,包括以下步骤:S1:面向大数据的初始聚类中心选择:对数据集进行随机采样,并使得采样的数据能够保留原始数据集中数据分布的特征;S2:基于聚类中心进行数据划分:把一个数据集分割成不同的类,使得同一个类里面的数据对象之间的相似性尽可能的大,同时不在同一个类里面的数据对象之间的差异性尽可能的大;S3:聚类中心重计算:基于MapReduce计算框架,重计算的结果首先写入内存,当内存满时,再写入硬盘,直接进入下一轮的迭代运算,进行聚类中心的重计算;S4:聚类中心重计算后,新的聚类中心集合和聚类偏差写入分布式共享内存中,若当前聚类偏差小于用户给定...

【技术特征摘要】
1.一种可交互的大数据并行k-means聚类方法,其特征在于,包括以下步骤:S1:面向大数据的初始聚类中心选择:对数据集进行随机采样,并使得采样的数据能够保留原始数据集中数据分布的特征;S2:基于聚类中心进行数据划分:把一个数据集分割成不同的类,使得同一个类里面的数据对象之间的相似性尽可能的大,同时不在同一个类里面的数据对象之间的差异性尽可能的大;S3:聚类中心重计算:基于MapReduce计算框架,重计算的结果首先写入内存,当内存满时,再写入硬盘,直接进入下一轮的迭代运算,进行聚类中心的重计算;S4:聚类中心重计算后,新的聚类中心集合和聚类偏差写入分布式共享内存中,若当前聚类偏差小于用户给定的偏差,则终止迭代运算。2.根据权利要求1所述的一种可交互的大数据并行k-means聚类方法,其特征在于,所述S1中面向大数据的初始聚类中心选择包括以下步骤:S11:对于数据集V中每个点p,产生R个随机数{v1,...vR};S12:{v1,...vR}中vi,若vi大于概率q,则将p点放入第i个样本中;S13:产生R个采样样本,混洗到R个Reduce任务中;S14:对每个样本进行k-means聚类,得到聚类中心;S15:计算R组聚类中心的误差平方和,选择结果最小的一组聚类中心作为初始聚类中心。3.根据权利要求1所述的一种可交互的大数据并行k-...

【专利技术属性】
技术研发人员:刘亮张小峰方黎明瞿靓何汉邵中波章鹏程
申请(专利权)人:南京中一物联科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1