一种基于适应度比例共享的流数据聚类方法和系统技术方案

技术编号:34595110 阅读:33 留言:0更新日期:2022-08-20 08:55
本发明专利技术提出了一种基于适应度比例共享的流数据聚类方法,该方法基于动态适应度比例共享(DFPS)数据聚类。该方法不依赖先验条件,而是将聚类问题映射为多模态优化问题,并引入了基于密度的目标函数,以采用适应度比例共享策略对聚类中心进行更有效的搜索。该方法还基于高斯核函数推导出高斯核函数的递归下界来捕获数据流随时间的密度演化。基于递归下界,在考虑历史样本的情况下,对每个到达的数据块进行离线适应度比例共享(FPS)聚类以获得每个数据块的临时聚类情况,并随时间在线更新全局聚类情况,跟踪数据流中聚类的变化。同时,利用3σ原理区分异常值,避免了先验条件阈值的不合理设定对聚类性能的影响。理设定对聚类性能的影响。理设定对聚类性能的影响。

【技术实现步骤摘要】
一种基于适应度比例共享的流数据聚类方法和系统


[0001]本专利技术涉及大数据人工智能领域。

技术介绍

[0002]传统的流数据聚类方法依赖于先验条件以及预定义参数(如簇中心数量或簇半径),且多数聚类方法对异常值和噪声敏感,而在实时数据场景下数据特征是未知的,先验条件难以获取。此外,传统的流数据聚类方法需事先设定阈值来克服异常值、噪声等对聚类过程的影响,并且重叠簇的存在对聚类过程影响较大。这些问题极大地限制了它们在实时数据场景下的应用。此外,现有的流数据聚类方法在存在重叠簇的情况下聚类过程会受到较大影响。
[0003]因此,需要能够改进现有技术中的缺陷的方法。

技术实现思路

[0004]提供本
技术实现思路
来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本
技术实现思路
并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
[0005]本专利技术克服现有流数据聚类方法对于先验条件的依赖和设定阈值对聚类性能的影响,采用3σ原理区分异常值,避免高度重叠的聚类和离群本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于适应度比例共享的流数据聚类的方法,所述方法包括:对数据流进行分块以生成初始数据块和多个后续数据块;根据所述初始数据块来计算所述数据流的统计信息;基于所述统计信息来对所述初始数据块进行适应度比例共享FPS聚类以确定所述数据流的聚类情况信息;根据所述多个后续数据块中的每个数据块来更新所述统计信息;基于经更新的统计信息来对所述多个后续数据块中的每个数据块进行动态适应度比例共享DFPS聚类;检查潜在聚类簇的密度值以确定是否存在新聚类簇;在确定存在新聚类簇的情况下进行聚类集群扩展;以及更新所述数据流的所述聚类情况信息。2.如权利要求1所述的方法,其中所述数据流是根据到达时间和速率来进行分块的。3.如权利要求1所述的方法,其中所述统计信息包括全局均值、全局方差、稳定参数、聚类中心、半径和中心密度值。4.如权利要求1所述的方法,其中所述统计量信息是基于从数据块中随机选取的数据样本所形成的数据样本集来计算的。5.如权利要求1所述的方法,其中所述FPS聚类包括对数据块中的数据样本的适应度值使用基于高斯核密度函数的目标函数。6.如权利要求1所述的方法,其中对所述多个后续数据块进行所述DFPS...

【专利技术属性】
技术研发人员:傅雨婷王霄雨乔安
申请(专利权)人:天翼数字生活科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1