当前位置: 首页 > 专利查询>莫毓昌专利>正文

一种面向流数据的动态聚类方法技术

技术编号:23766623 阅读:38 留言:0更新日期:2020-04-11 20:10
本发明专利技术公开了一种面向流数据的动态聚类方法,涉及数据处理技术领域。该面向流数据的动态聚类方法,能够检测和监控流数据中聚类的出现、消失和重现,能够将流数据中新出现的聚类及时添加到当前模型中,移除过时的聚类,并且有效检测再次重现的聚类并添加,而不是构造新的聚类。首先,为流数据中聚类的出现、消失和重现设计响应的检验器。然后,提出了一种融合三种检验器的聚类框架,并引入了两个储层:一个用于存储离群点(异常储层),另一个用于收集非活动聚类(移除储层)。具体而言,前者用于构造新的聚类,后者用于聚类重现检测。最后,对该面向流数据的动态聚类方法的参数敏感性进行了分析,重点分析了三种检验器相关参数的敏感性。

A dynamic clustering method for flow data

【技术实现步骤摘要】
一种面向流数据的动态聚类方法
本专利技术涉及数据处理
,具体为一种面向流数据的动态聚类方法。
技术介绍
数据挖掘中的一个关键问题是数据流的聚类。在现有技术中,大多数现有的数据流聚类算法,比如Den-stream算法、Clustream算法,可以检测聚类的出现。特别地,流相似性传播(STRAP)算法是基于静态聚类算法相似性传播(AP)的有效数据流聚类方法。与Den-stream算法、Clustream算法相比,STRAP通过连续选择样本(聚类的代表性数据点)而使得聚类更精确、稳定和计算效率更高。但是无论Den-stream算法、Clustream算法还是STRAP算法都没有处理消失和重现的聚类的能力。为了克服现有方法的局限性,提出了一种新的面向流数据的动态聚类方法。该方法基于一个融合聚类出现、消失和重现三种检验器的聚类框架,确保新出现的聚类得到及时识别,过时的聚类被移除,并且重现的聚类被有效地检测,而不是被视为新的聚类。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种面向流数据本文档来自技高网...

【技术保护点】
1.一种面向流数据的动态聚类方法,其特征在于:具体操作如下:/nS1、定义聚类:采用向量

【技术特征摘要】
1.一种面向流数据的动态聚类方法,其特征在于:具体操作如下:
S1、定义聚类:采用向量表示每个聚类,其中:
·是聚类j的样本;
·是到时间戳t分配给聚类j的数据点总数;
·是聚类j中的数据点与其样本之间的总相似度;
·tj是将一个点分配给聚类j时的最后一个时间戳;
·是初始值设置为0的计数器;
S2、设定三种检验器来处理流数据中聚类的出现、消失和重现三种典型的模式,分别为出现检验器、消失检验器和重现检验器,其中,如果参数rt大于预设阈值α,将通过对聚类模型Ct-1中的样本和ot中的离群点应用静态聚类方法Kmean重建整体聚类模型。
对于每个活动聚类cj,计算它被访问的最后时间戳和当前时间戳之间的时间间隔,即,
Δtj=t-tj(6)
然后,将Δtj与阈值β进行比较,以判断在时间戳t处聚类j的状态。即,如果聚类的Δtj大于β,则该聚类被标记为“非活动”。非活动聚类被视为已经消失的聚类。消失的聚类将从聚类模型Ct中移除到移除储层C't,以获得Ct非冗余;
S3、建立融合三种检验器的聚类框架:框架中包括四个决策模块(表示为离群点检测决策模块、出现检验器决策模块、消失检验器决策模块和重现检验器决策模块)和两个储层(表示为异常储层和移除储层)。所有活动聚类都保存在聚类模型(表示为模型)中,以表示数据流的当前聚类模式。移除储层收集所有当前非活动的聚类;
S4、分析关键参数的敏感性:面向流数据的动态聚类方法中有几个影响聚类质量的关键参数,如θ、α、β和γ,给出了一些定性分析来说明这些参数如何影响动态聚类方法的性能。
首先,θ通过控制离群点的数量对出现、消失和重现三种典型模式的检验有间接影响。通常,θ越小,数据点越容易被判断为离群点。因此,更多的聚类倾向于不活动,并且将导致更频繁的聚类模型整体重建。推荐值是初始模型中数据点和样本之间的平均欧几里德距离。
其次,α代表用于控制聚类模型整体重建的阈值。当离群点数量超过该阈值时将触发聚类模型整体重建。因此,α影响动态聚类方法的稳定性和处理时间。
第三,β表示模型中的活动聚类没有被到达的数据访问的最大持续时间。因此,较大的β将导致活动聚类被重新判断为非活动聚类的可能性较小。
参数γ表示如果需要将移除储层中的聚类作为重现聚类返还到当前聚类模型,分配的数据点的最小数量。γ越小,发现的重现聚类越多。


2.根据权利要求1所...

【专利技术属性】
技术研发人员:莫毓昌
申请(专利权)人:莫毓昌
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1