一种面向进化数据流的实时聚类方法技术

技术编号:18526094 阅读:28 留言:0更新日期:2018-07-25 12:49
本发明专利技术提供一种面向进化数据流的在线聚类方法。技术方案包括下述步骤:①建立有效类集合、消失类集合、离群点集合的步骤;②对当前时刻获得的待处理点归入某个集合的步骤;③更新离群点集合、有效类集合和消失类集合的步骤。本发明专利技术针对进化数据流中典型的三种进化形式(即类的出现、消失与复现)分别设计了检测函数,并进行了整合统一,提高数据流聚类方法的稳定性,扩展了数据流聚类方法的应用范围。

【技术实现步骤摘要】
一种面向进化数据流的实时聚类方法
本专利技术属于数据流聚类
,具体是涉及一种面向进化数据流的动态聚类方法。
技术介绍
数据流,是指实时流入的数据,区别于传统的批量式获取的数据,通常按数据分布是否发生变化分为静态数据流(数据分布不变化)以及进化数据流(数据分布变化),进化数据流也被称为动态数据流。目前,数据流已成为信息社会的主要数据形式之一,如金融交易数据、通信记录数据、传感观测数据等。数据流聚类技术是指通过某种聚类手段来实现数据流的分析,其凭借不依赖先验信息的强大优势目前成为数据流挖掘的主要手段之一。目前,数据流聚类方法主要针对的是静态数据流。实际上,现实中的数据流普遍具有进化特性(或称动态特性),即数据流数据动态流入过程中会进行如新类出现、旧类消失、旧消失类复现(以下分别简称为出现、消失、复现)等进化形式。在实际应用中,检测这些普遍存在的进化形式通常对用户具有更重要的意义,如可用来实现在天文学、医药、金融、网络等领域的监测和观察目的等。因此,迫切需要针对进化数据发展数据流聚类技术。其意义在于,一方面这将提高用户关于数据流当前聚类模式以及各类的进化的全面的理解;另一方面,也帮助用户在所有数据到达之前便做出准确的判断,如寻找网络异常侵入时间、估计给定时间段的类数以及寻找最优调整时间。尽管国内外学者已就面向进化数据流的数据流聚类技术展开了许多尝试,但主要针对的新类出现这一进化形式展开,这严重限制了数据流聚类算法的应用范围,因此,有必要扩展数据流聚类技术处理多种进化形式数据的能力。
技术实现思路
本专利技术提供一种面向进化数据流的在线聚类方法,针对进化数据流的三种典型的进化形式,即出现、消失、复现,分别设计了检测策略,并设计了处理框架,同时将三种检测策略进行了整合,从而实现了本专利技术对进化数据流的实时聚类,能够使得数据流中的新类及时地加入、消失的类及时地被移除、以及复现的类被及时恢复而不需要重新再形成。本专利技术的技术方案是:一种面向进化数据流的实时聚类方法,其特征在于,包括下述步骤:①建立有效类集合、消失类集合、离群点集合的步骤;②对当前时刻获得的待处理点归入某个集合的步骤;③更新离群点集合、有效类集合和消失类集合的步骤。其中:①建立有效类集合、消失类集合、离群点集合的步骤;其中有效类集合的初始值是收集一定量数据,再利用静态聚类方法对初始化集合进行聚类而得到的结果的集合;消失类集合的初始化值为空集;离群点集合的初始化值为空集。②对当前时刻获得的待处理点归入某个集合的步骤,包括:首先计算待处理点与有效类集合以及消失类集合中的类的欧式距离,并求最小值;然后对上述最小值与预定离群点门限进行比较:若最小值大于上述门限,则将待处理点分入到离群点集合中;若最小值小于或等于上述门限,则将待处理点分入最小值对应集合的类中。③更新离群点集合、有效类集合和消失类集合的步骤:(a)更新离群点集合的步骤:首先计算离群点集合中元素的个数;然后将该个数与预定出现门限进行比较:若该个数大于等于该门限,则利用静态聚类处理方法对离群点集合中所有元素进行分类,并将分类结果添加至有效类集合中,同时清空离群点集合;若该个数小于该门限,则不对离群点集合进行任何更新。(b)更新有效类集合的步骤:对有效类集合中的每一类进行如下操作:首先计算当前时刻距该类最近一次被更新的时间间隔,若该时间间隔大于等于预定消失门限,则将该类从有效类集合中删除,并添加至消失类集合中。(c)更新消失类集合的步骤:对消失类集合中的每一类进行如下操作:首先计算该类自加入消失类集合中后,被分入处理点的个数,若该个数大于等于预定复现门限,则将该类从消失类集合中删除,并添加至有效类集合中。本专利技术的有益效果是:(1)本专利技术分别针对进化数据流中典型的三种进化形式(即类的出现、消失与复现)分别设计了检测函数(即利用更新离群点集合、有效类集合和消失类集合的步骤),提高了数据流聚类方法面向进化数据流的处理能力;(2)本专利技术通过提出进化数据流动态聚类处理算法,将三种数据流进化形式进行了整合统一,提高数据流聚类方法的稳定性,扩展了数据流聚类方法的应用范围。附图说明图1是本专利技术的原理流程示意图;图2本专利技术的具体实现的流程图;图3仿真实验一的数据集信息;图4仿真实验一的实验结果;图5仿真实验二的数据集信息;图6仿真实验二的实验结果。具体实施方式下面结合附图对本专利技术进一步说明。图1是本专利技术的原理流程示意图,首先进行建立三类集合(即有效类集合、消失类集合以及离群点集合)的步骤,然后进行将待处理点分入集合的步骤,最后进行三类集合的更新。其中,有效类集合与消失类集合中的基本元素是类别;离群点集合中的基本元素是处理点,即形成数据流的基本单位,也称数据点。有效类集合中存放的是当前时刻对数据流仍有聚类意义的类别,其初始值是通过收集一定量的待处理数据后,利用静态聚类方法处理得到的类别;消失类集合中存放的是当前时刻之前,从有效类集合中删除的对数据流失去聚类意义的类别,其初始值为空集;离群点集合里存放的是离群点,离群点是指具有如下特征的处理点:将处理点与有效类集合与消失类集合中的类别的距离最小值与预定离群点门限作比较,若上述最小值大于该门限,则判定该处理点为离群点,分入离群点集合中。三类集合的更新是针对三类典型的进化形式而进行的,具体地,离群点集合更新是对应数据流中新类出现的进化形式,原因是新类的出现会导致一定量的新类的点因找不到合适的类而被分入离群点集合,因此,当离群点集合中的点数超过预定出现门限,表示已有新类出现,因此需要对离群点集合中的点进行聚类;有效类集合更新是对应数据流中旧类消失的进化形式,若有效类集合中的某类在长时间没有点被分入,在该时间间隔大于预定消失门限之后,表明这些类已经“失效”,则将从有效类集合中删除该类,并将其加入到消失类集合中;而消失类集合更新是对应数据流中旧类复现的进化形式,若消失类集合中的某类仍有点被分入,且该数目超过了预定复现门限,说明该类已经从“失效”状态转变为“有效”状态,则将从消失类集合中删除该类,并将其加入到有效类集合中。在数据流实时处理阶段,将待处理点分入集合步骤与三类集合更新的步骤反复进行。图2是本专利技术具体实现的流程图。如图2所示;首先建立三个集合,Θ、O及Δ分别对应有效类集合、离群点集合及消失类集合。其中,离群点集合O及消失类集合Δ的初始值分别为空集。有效类集合Θ进行初始化时,利用已获得的数据流,通过现有的聚类方法求得初始化聚类集合Θ={cj},假设共得到J类,则j=1,2,...,J。获得的数据流的数据量根据具体情况确定。然后,进入实时聚类处理阶段:假设任意时刻tn到达的多维数据点xn,分别进行下列实时聚类处理步骤:第一步,进行离群点检测;①:若有效类集合Θ为非空集合,则计算该集合中每一个类cj与xn的欧式距离,此处推荐求取点xn与类cj的类中心的欧式距离;假定该集合中,类cm距离xn最近,即二者欧式距离最小,将该最小距离定义为d1;若有效类集合Θ为空集合,则d1=∞;②:若消失类集合Δ为非空集合,假设Δ={bl},共L个元素,则l=1,2,...,L,计算其每一个类bl与xn的欧式距离;假定消失类集合Δ中类br距离xn最近,即二者欧式距离最小,则将该最小距离定义为d2;若本文档来自技高网...

【技术保护点】
1.一种面向进化数据流的实时聚类方法,其特征在于,包括下述步骤:①建立有效类集合、消失类集合、离群点集合的步骤;②对当前时刻获得的待处理点归入某个集合的步骤;③更新离群点集合、有效类集合和消失类集合的步骤。

【技术特征摘要】
1.一种面向进化数据流的实时聚类方法,其特征在于,包括下述步骤:①建立有效类集合、消失类集合、离群点集合的步骤;②对当前时刻获得的待处理点归入某个集合的步骤;③更新离群点集合、有效类集合和消失类集合的步骤。2.根据权利要求1所述的面向进化数据流的实时聚类方法,其特征在于,更新离群点集合的步骤是:首先计算离群点集合中元素的个数;然后将该个数与预定出现门限进行比较:若该个数大于等于该门限,则利用静态聚类处理方法对离群点集合中所有元素进行分类,并将分类结果添加至有效类集合中,同时清空离群点集合;若该个数小于该门限,则不对离群点集合...

【专利技术属性】
技术研发人员:隋金坪刘振黎湘
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1