一种基于流数据的聚类方法技术

技术编号：16038136 阅读：57 留言：0更新日期：2017-08-19 19:58

本发明专利技术提供一种基于流数据的聚类方法，所述聚类方法包括：根据预设的算法产生k个随机种子；对所述k个随机种子进行加权k‑均值+；根据加权k‑均值+的结果进行流数据聚类。本发明专利技术实施例，根据预设的算法产生k个随机种子，对k个随机种子进行加权k‑均值+，根据加权k‑均值+的结果进行流数据聚类，使得本发明专利技术可以处理混合数据、多种形状数据，效率较高的处理了流数据聚类问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于流数据的聚类方法
本专利技术涉及电数据处理领域，尤其涉及一种基于流数据的聚类方法。
技术介绍
如今，社会正处于信息大爆炸时代，源源不断的数据以数据流的形式流入。用户在进行服务器登录使用都会产生大量的登录或者使用记录，对于这些记录产生的流数据，利用数据挖掘的方法，可以帮助人们有效的自动识别异常行为操作，如非授权数据使用、异常数据操作、网络攻击等。流数据聚类的数据挖掘方法作为一种有实际意义而且有效的方法，被在各类网站以及平台被广泛应用。流数据聚类算法问题十分具有挑战性。传统的数据聚类算法，是可以对所有的数据进行多次重复的操作，从而可以得到很好效果。但是由于流数据的数据量巨大，保存所有历史数据是不现实的，所以只能对数据进行一次处理，只能保留历史数据的概要信息。
技术实现思路
有鉴于此，本专利技术提供了一种记录流数据的聚类方法，以解决现有对流数据进行聚类困难的问题。具体地，本专利技术是通过如下技术方案实现的：本专利技术提供一种基于流数据的聚类方法，所述聚类方法包括：根据预设的算法产生k个随机种子；对所述k个随机种子进行加权k-均值+；根据加权k-均值+的结果进行流数据...

【技术保护点】
一种基于流数据的聚类方法，其特征在于，所述聚类方法包括：根据预设的算法产生k个随机种子；对所述k个随机种子进行加权k‑均值+；根据加权k‑均值+的结果进行流数据聚类。

【技术特征摘要】
1.一种基于流数据的聚类方法，其特征在于，所述聚类方法包括：根据预设的算法产生k个随机种子；对所述k个随机种子进行加权k-均值+；根据加权k-均值+的结果进行流数据聚类。2.如权利要求1所述的聚类方法，其特征在于，所述根据加权k-均值+的结果进行流数据聚类，包括：对于每一个时间片通过加权k-均值+得到k′个微簇，计算每一个微簇和宏簇集中的宏簇最短的距离：如果距离小于预设的阈值，将该微簇分配到最近的宏簇中，如果距离大于预设的阈值，新建一宏簇，并将该微簇分配到该宏簇。计算每两个宏簇之间的距离，将距离小于预设的阈值的宏簇合并。3.如权利要求1所述的聚类方法，其特征在于，所述根据预设的算法产生k个随机种子，包括：1：输入：k：种子(seeds)的数目，D:数据集2：输出：SS：种子的集合3：在D中随机选择一个对象x14：SS←{x1}5：循环6：计算∑a∈SSD(a,xi)对于所有的7：基于求得的距离和给每一个点赋于概率8：根据概率选择下一个种子xj9：SS←SS∪{xj}10：直到|SS|＝k11：返回SS。4.如权利要求1所述的聚类方法，其特征在于，所述对所述k个随机种子进行加权k-均值+，包括：1：输入：k：...

【专利技术属性】
技术研发人员：李翠微，王昌栋，梁文斌，
申请(专利权)人：广州天锐锋信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人