【技术实现步骤摘要】
一种基于流数据的聚类方法
本专利技术涉及电数据处理领域,尤其涉及一种基于流数据的聚类方法。
技术介绍
如今,社会正处于信息大爆炸时代,源源不断的数据以数据流的形式流入。用户在进行服务器登录使用都会产生大量的登录或者使用记录,对于这些记录产生的流数据,利用数据挖掘的方法,可以帮助人们有效的自动识别异常行为操作,如非授权数据使用、异常数据操作、网络攻击等。流数据聚类的数据挖掘方法作为一种有实际意义而且有效的方法,被在各类网站以及平台被广泛应用。流数据聚类算法问题十分具有挑战性。传统的数据聚类算法,是可以对所有的数据进行多次重复的操作,从而可以得到很好效果。但是由于流数据的数据量巨大,保存所有历史数据是不现实的,所以只能对数据进行一次处理,只能保留历史数据的概要信息。
技术实现思路
有鉴于此,本专利技术提供了一种记录流数据的聚类方法,以解决现有对流数据进行聚类困难的问题。具体地,本专利技术是通过如下技术方案实现的:本专利技术提供一种基于流数据的聚类方法,所述聚类方法包括:根据预设的算法产生k个随机种子;对所述k个随机种子进行加权k-均值+;根据加权k-均值+的结果进行流数据 ...
【技术保护点】
一种基于流数据的聚类方法,其特征在于,所述聚类方法包括:根据预设的算法产生k个随机种子;对所述k个随机种子进行加权k‑均值+;根据加权k‑均值+的结果进行流数据聚类。
【技术特征摘要】
1.一种基于流数据的聚类方法,其特征在于,所述聚类方法包括:根据预设的算法产生k个随机种子;对所述k个随机种子进行加权k-均值+;根据加权k-均值+的结果进行流数据聚类。2.如权利要求1所述的聚类方法,其特征在于,所述根据加权k-均值+的结果进行流数据聚类,包括:对于每一个时间片通过加权k-均值+得到k′个微簇,计算每一个微簇和宏簇集中的宏簇最短的距离:如果距离小于预设的阈值,将该微簇分配到最近的宏簇中,如果距离大于预设的阈值,新建一宏簇,并将该微簇分配到该宏簇。计算每两个宏簇之间的距离,将距离小于预设的阈值的宏簇合并。3.如权利要求1所述的聚类方法,其特征在于,所述根据预设的算法产生k个随机种子,包括:1:输入:k:种子(seeds)的数目,D:数据集2:输出:SS:种子的集合3:在D中随机选择一个对象x14:SS←{x1}5:循环6:计算∑a∈SSD(a,xi)对于所有的7:基于求得的距离和给每一个点赋于概率8:根据概率选择下一个种子xj9:SS←SS∪{xj}10:直到|SS|=k11:返回SS。4.如权利要求1所述的聚类方法,其特征在于,所述对所述k个随机种子进行加权k-均值+,包括:1:输入:k:...
【专利技术属性】
技术研发人员:李翠微,王昌栋,梁文斌,
申请(专利权)人:广州天锐锋信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。