一种自适应数据流聚类方法技术

技术编号：41319826 阅读：4 留言：0更新日期：2024-05-13 14:59

本发明专利技术属于数据挖掘领域，涉及一种自适应数据流聚类方法，包括在线阶段和离线阶段；在线阶段计算数据流的微粒球集合，离线阶段对微粒球集合进行聚合，得到聚合结果；计算数据流的微粒球集合包括：获取数据流初始时刻的数据，对数据进行分裂，得到微粒球集合H<subgt;1</subgt;；获取数据流当前时刻t的数据，将当前时刻t的数据加入微粒球集合H<subgt;t‑1</subgt;，得到微粒球集合利用改进的阻尼窗口模型更新微粒球集合得到微粒球集合H<subgt;t</subgt;；重复步骤S2～S3，直到数据流结束；本发明专利技术基于粒球的自适应特性提出了一种适用于流聚类的微粒球结构，消除了对参数的依赖，提高了数据流聚类的准确性和效率；本发明专利技术利用改进的阻尼窗口模型在解决数据漂移的同时，平衡了时间与空间的消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘领域，具体涉及一种自适应数据流聚类方法。

技术介绍

1、随着网络和物联网技术的快速发展，大量的数据流通过社交媒体、传感器网络等渠道生成。数据流是一种动态、连续生成的数据序列，它以高速率不断产生，通常来自于实时应用和系统，如传感器网络、金融交易、社交媒体活动、网络流量监控等。流聚类的研究核心就是识别无序、无限且不断演变的观测数据流中的模式。不同于传统的静态数据聚类问题，数据流聚类面临有限内存、一遍扫描、实时响应和数据漂移等许多约束。

2、现有的数据流聚类技术普遍依赖于大量的参数设置，这些方法往往忽略了数据流的实时变化和结构复杂性。此外，现有技术在处理数据流中的数据漂移问题时效果有限，这导致了在实际应用中，尤其是在需要快速响应数据变化的场景下，聚类结果的准确性和可靠性受到影响。

3、因此，以上现有技术没有消除流聚类对参数的依赖以及没有有效的解决数据漂移的问题。

技术实现思路

1、1、为解决以上现有技术问题，本专利技术采用一种自适应数据流聚类方法，包括在线阶段和离线阶段；所述在线阶段计算数据流的微粒球集合，所述离线阶段对微粒球集合进行聚合，得到聚合结果；所述在线阶段计算数据流的微粒球集合包括：

2、s1、获取数据流初始时刻的初始数据，将初始数据作为一个微粒球并对微粒球进行分裂，得到初始时刻的微粒球集合h1；所述微粒球集合h1包括多个微粒球，所述微粒球包括多个数据点；

3、s2、获取数据流当前时刻t的数据点，将当前时刻t

4、s3、利用改进的阻尼窗口模型更新微粒球集合得到微粒球集合ht；

5、s4、重复步骤s2～s3，直到数据流结束。

6、对微粒球进行分裂包括：

7、s11、计算微粒球的子微粒球mgbj，分别计算微粒球及其子微粒球的汇聚度；

8、s12、当子微粒球的汇聚度均大于微粒球的汇聚度时，将微粒球分裂为子微粒球mgbj；否则，不分裂微粒球；

9、s13、判断微粒球数量是否收敛，若收敛，则得到微粒球集合h1；否则，回到步骤s11，对子微粒球mgbj进行分裂。

10、计算微粒球的子微粒球mgbj包括：

11、s121、在微粒球中选择距离微粒球中心最远的数据点p1以及距离p1最远的数据点p2；

12、s122、分别计算微粒球中心与数据点p1和数据点p2的中点c1和c2；

13、s123、将微粒球中除p1和p2之外的其余点分入c1和c2，得到两个子微粒球。

14、计算微粒球的汇聚度包括：计算微粒球的总半径s，计算微粒球的数据点个数n与总半径s的比率，得到微粒球的汇聚度。

15、当前时刻t的数据点加入微粒球集合ht-1包括：

16、s21、在微粒球集合ht-1中选择与当前时刻t的数据点距离最近的微粒球mgbp以及与mgbp最近的微粒球mgbq；

17、s22、根据微粒球mgbq得到微粒球mgbp的最大影响范围mirp；

18、s23、若mirp大于微粒球mgbp与数据点的距离，则将加入微粒球mgbp，得到新微粒球；对新微粒球进行分裂，得到微粒球集合

19、s24、若mirp小于微粒球mgbp与数据的距离，则利用创建一个微粒球并将微粒球加入微粒球集合ht-1，得到微粒球集合

20、利用改进的阻尼窗口模型更新微粒球集合包括：

21、更新微粒球集合中每个数据点xk的权重计算每个数据点xk的动态阈值，从微粒球中淘汰权重低于动态阈值的数据点，得到微粒球集合ht。

22、更新微粒球集合中数据点xk的权重包括：

23、

24、

25、其中，t为当前时刻，为权重和权重之间的倍数，tk表示时刻，count()表示计算数据点的数量，tinit为初始时刻。

26、计算微粒球集合中的第k个数据点xk的动态阈值ξk包括：

27、

28、其中，t为当前时刻，为数据点的权重，tk表示时刻，count()表示计算数据点的数量，tinit为初始时刻。

29、离线阶段对微粒球集合ht进行聚合包括；

30、计算微粒球集合ht中任意两个微粒球和的阈值当微粒球和之间的距离小于阈值时，给微粒球和标记相同的类标签；当微粒球集合ht中所有微粒球均被标记时，合并具有相同类标签的微粒球，得到聚类结果。

31、计算任意两个微粒球和的阈值包括：

32、

33、其中，为的调整系数，分别代表微粒球和与其他微粒球的重叠次数，分别为微粒球和的半径，min()表示计算最小值。

34、有益效果：

35、1、本专利技术将粒球计算与数据流聚类相结合，基于粒球的自适应特性提出了一种适用于流聚类的微粒球结构，并通过微粒球来处理演化的数据流，消除了数据流聚类对参数的依赖，在准确性和效率方面显示出显著优势；2、本专利技术利用改进的阻尼窗口模型，及时消除不必要的历史数据，只存储关键的数据，在解决数据漂移的同时，平衡了时间与空间的消耗。

本文档来自技高网...

【技术保护点】

1.一种自适应数据流聚类方法，其特征在于，包括在线阶段和离线阶段；所述在线阶段计算数据流的微粒球集合，所述离线阶段对微粒球集合进行聚合，得到聚合结果；所述在线阶段计算数据流的微粒球集合包括：

2.根据权利要求1所述的一种自适应数据流聚类方法，其特征在于，对微粒球进行分裂包括：

3.根据权利要求2所述的一种自适应数据流聚类方法，其特征在于，计算微粒球的子微粒球MGBj包括：

4.根据权利要求2所述的一种自适应数据流聚类方法，其特征在于，计算微粒球的汇聚度包括：计算微粒球的总半径S，计算微粒球的数据点个数N与总半径S的比率，得到微粒球的汇聚度。

5.根据权利要求1所述的一种自适应数据流聚类方法，其特征在于，当前时刻t的数据点加入微粒球集合Ht-1包括：

6.根据权利要求1所述的一种自适应数据流聚类方法，其特征在于，利用改进的阻尼窗口模型更新微粒球集合包括：

7.根据权利要求6所述的一种自适应数据流聚类方法，其特征在于，更新微粒球集合中数据点xk的权重包括：

8.根据权利要求6所述的一种自适应数据流聚类

9.根据权利要求1所述的一种自适应数据流聚类方法，其特征在于，离线阶段对微粒球集合Ht进行聚合包括；

10.根据权利要求9所述的一种自适应数据流聚类方法，其特征在于，计算任意两个微粒球和的阈值包括：

...

【技术特征摘要】

2.根据权利要求1所述的一种自适应数据流聚类方法，其特征在于，对微粒球进行分裂包括：

3.根据权利要求2所述的一种自适应数据流聚类方法，其特征在于，计算微粒球的子微粒球mgbj包括：

4.根据权利要求2所述的一种自适应数据流聚类方法，其特征在于，计算微粒球的汇聚度包括：计算微粒球的总半径s，计算微粒球的数据点个数n与总半径s的比率，得到微粒球的汇聚度。

5.根据权利要求1所述的一种自适应数据流聚类方法，...

【专利技术属性】
技术研发人员：赵洋洲，夏书银，谢江，王国胤，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人