System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于流式数据聚类的概念漂移适应方法技术_技高网

一种基于流式数据聚类的概念漂移适应方法技术

技术编号:40561797 阅读:11 留言:0更新日期:2024-03-05 19:24
本发明专利技术公开了一种基于流式数据聚类的概念漂移适应方法,步骤如下:1)从数据采集终端实时收集数据,当新数据点从数据流中到达时,记录新数据点,并将该数据点的处理次序作为时间戳;2)所述步骤1中,当发生新数据点加入离群点集合时,如果加入新数据点前离群点集合为空,则仅需加入新数据点即可,否则如果离群点集合非空,还需更新离群点属性;3)检查微簇和各个离群点属性,将过期的微簇和离群点从对应集合中删除;4)检查各个微簇之间的相交关系,将相交的微簇进行组合,组合后形成宏簇;本发明专利技术使用聚类的方式实现了一种能够应对不同类型概念漂移的通用解法,同时剔除离群点集合中的异常值。

【技术实现步骤摘要】

本专利技术涉及人工智能、机器学习,具体涉及一种基于流式数据聚类的概念漂移适应方法


技术介绍

1、随着互联网、物联网、云计算、5g通信等信息技术的发展,催生了巨量数据,“大数据”时代已经降临。在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。在当前数据驱动的社会中,机器学习已经成为各个领域不可或缺的工具。基于数据学习得到的模型依赖于数据的分布,一旦数据分布发生变化,模型的泛化能力会受到影响,虽然大数据在一定程度上可以缓解该问题,但大数据并非是“全数据”。这个问题就是机器学习中的概念漂移问题。概念漂移指的是在机器学习任务中,训练数据和测试数据的分布发生不一致的情况,可能由于时间、环境或数据源等多种因素的变化引起,传统的机器学习和数据分析技术往往难以有效的处理概念漂移,迫切需要研发能够适应概念漂移的机器学习技术。

2、概念漂移适应技术的发展旨在使机器学习模型能够适应新的数据分布,以确保在不断变化的环境中仍能够保持高性能。目前概念漂移适应的方法包括领域自适应、在线学习和集成方法等。领域自适应旨在将模型从一个领域迁移到另一个领域,以适应不同的数据分布;在线学习允许模型不断接受新数据并进行更新,以反映分布的变化,无需重新训练整个模型;集成方法通过结合多个模型的预测来提高性能,其中一些模型专注于适应概念漂移。

3、流式数据聚类作为一种机器学习技术,主要用于处理数据流或连续生成的数据,而不是批处理数据。在流式数据聚类中,数据点以不断生成和更新的形式到达,这些数据点可能是时序的、多维的,而且通常是高维的。数据点的一个维度称为它的一个特征,一组特征相似的数据点组合成为一个簇,在流式数据聚类中称为微簇,微簇中的代表性点或中心点称为簇心。流式数据聚类通常采用增量方法,对微簇及其簇心进行更新,发现和维护数据点集中的簇结构,反映数据中模式、群集或关联关系的变化。这种实时或近实时适应变化的能力为概念漂移适应提供了新的解决方法。

4、尽管这些方法为解决数据分布变化提供了一些途径,但仍然存在挑战。由于概念漂移形式的复杂多变,大多数算法受到解决策略的局限性只能解决特定类型的漂移,缺乏一种通用的解决方法。此外,在流式数据的采集过程中无法避免噪声或异常值的产生,许多方法对判定的潜在漂移对象未能有效区分噪声和有意义的样本,导致模型的再训练受到噪声或异常值的影响。因此,如何设计一种能够有效区分噪声的通用方法,对解决概念漂移的适应问题具有重要意义。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种基于流式数据聚类的概念漂移适应方法。

2、本专利技术的技术方案如下:

3、一种基于流式数据聚类的概念漂移适应方法,包含以下步骤:

4、步骤1:数据采集和分配。从数据采集终端实时收集数据,当新数据点从数据流中到达时,记录新数据点,并将该数据点的处理次序作为时间戳,若尚未有微簇形成,则将新数据点加入离群点集合中;若已有微簇,则计算新数据点与各簇心之间的余弦距离,若距离均大于人为设定的距离阈值r,则将新数据点加入离群点集合中,否则将该数据点分配给距离簇心最近的微簇并更新该微簇的属性;

5、步骤2:所述步骤1中,当发生新数据点加入离群点集合时,如果加入新数据点前离群点集合为空,则仅需加入新数据点即可,否则如果离群点集合非空,还需更新离群点属性:新数据点加入离群点集合,更新与新数据点相似的离群点的属性,并判断离群点集合中是否存在微簇,若存在微簇,则将该微簇加入微簇集合,并将该微簇包含的数据点从离群点集合中删除。前述离群点与新数据点相似是指两者的余弦距离小于距离阈值r;

6、步骤3:检查微簇和各个离群点属性,将过期的微簇和离群点从对应集合中删除;

7、步骤4:微簇之间的关系更新。检查各个微簇之间的相交关系,将相交的微簇进行组合,组合后形成宏簇。宏簇是在聚类过程中,多个微簇之间相互连接或相交而形成的更大的聚类结构,宏簇的簇心为构成它的微簇中心的均值。

8、进一步地,在步骤1采集新数据点并进行分配的过程中,对应的数据点属性包括时间戳t与特征f,具体包含如下步骤:

9、1.1)从数据源采集新数据点,记录数据点的特征f,同时将该数据点的处理次序作为时间戳t;

10、1.2)若尚未有微簇形成,则直接将新数据点加入离群点集合outliers中;

11、1.3)若已有微簇存在,则计算新数据点与各个微簇簇心ci的距离,找到距离最近的微簇,若最近距离小于人为设定的距离阈值r,继续判断该数据点的时间戳t与该微簇的最后更新时间last_update_time之间的差值是否小于设定的最大时间差max_t,如果小于max_t,则认为数据点满足分配给该微簇的条件,反之则将该数据点加入离群点集合中。距离函数采用余弦距离,⊙代表点积,公式为:

12、

13、1.4)若在步骤1.3中新数据点满足分配给距离簇心最近的微簇的条件,需要对该微簇的属性进行更新,更新的微簇属性主要包括微簇簇心ci、更新频率frequency和最后更新时间last_update_time,同时根据微簇更新频率的变化判断是否需要调整设定的最大时间差max_t。具体步骤如下:

14、1.4.1)记录该数据点的时间戳t与该微簇最后更新时间last_update_time之间的差值,用得到的差值重新对该微簇的更新频率frequency进行计算,若更新频率下降,则将max_t的值增加δx,反之则减小δx,δx为根据数据集特性人为设定的经验性值。更新频率frequency的计算公式为:

15、δt=t-last_update_time#(2)

16、

17、其中,n为微簇中加入新数据点前的数据点个数。

18、1.4.2)将该微簇的最后更新时间last_update_time更新为该数据点的时间戳t,重新计算更新后的微簇中心。对应簇心ci的计算公式为:

19、

20、新簇心ci←(1-w)*ci+w*f#(5)

21、其中,w为根据得到的余弦距离与距离阈值r的比值计算得到的一个权重。

22、进一步地,在步骤2对离群点集合中数据点的更新属性为每个数据点的受影响时间influence_time。具体步骤如下:

23、2.1)若在步骤1中,发生新数据点加入离群点集合时,如果加入新数据点前离群点集合为空,则仅需加入新数据点即可,否则如果离群点集合非空,还需更新离群点属性:计算新数据点与离群点集合中每个离群点之间的距离,将与新数据点相似的离群点的受影响时间influence_time属性更新为新数据点的时间戳t。如步骤2所述,离群点与新数据点相似是指两者的余弦距离小于距离阈值r。距离函数同样采用余弦距离,公式为:

24、

25、其中,outi表示离群点集合outliers中第i个离群点。

26、2.2本文档来自技高网...

【技术保护点】

1.一种基于流式数据聚类的概念漂移适应方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于流式数据聚类的概念漂移适应方法,其特征在于,所述步骤1具体步骤为:

3.如权利要求1所述的一种基于流式数据聚类的概念漂移适应方法,其特征在于,所述步骤2具体步骤为:

4.如权利要求1所述的一种基于流式数据聚类的概念漂移适应方法,其特征在于,所述步骤3具体步骤为:

5.如权利要求1所述的一种基于流式数据聚类的概念漂移适应方法,其特征在于,所述步骤4具体步骤为:

【技术特征摘要】

1.一种基于流式数据聚类的概念漂移适应方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于流式数据聚类的概念漂移适应方法,其特征在于,所述步骤1具体步骤为:

3.如权利要求1所述的一种基于流式数据聚类的概念漂移适应方法,...

【专利技术属性】
技术研发人员:陆昊阳杨良怀龚卫华范玉雷
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1