基于分层聚类的滑动窗口多数据流异常检测方法技术

技术编号:9356956 阅读:158 留言:0更新日期:2013-11-21 00:11
基于分层聚类的滑动窗口多数据流异常检测方法,本发明专利技术涉及基于分层聚类的滑动窗口多数据流异常检测方法。它为了解决由于过期数据和历史数据的影响使数据流异常检测结果的精度降低问题。本发明专利技术通过分层聚类算法在在线做聚时可以不必考虑最终的聚类结果,以较高的速率对到达的数据进行处理,而离线层由于只利用在线做聚结构响应用户查询结果,其数据量大大小于原始数据个数,可以实现数据的有效存储,得到较精确的聚类结果。针对滑动窗口模型,采用聚类特征指数直方图的结构,可以更好的完成新数据的插入和过期数据的删除。通过余弦系数作为度量函数,可以取得很好的聚类和异常检测结果。本发明专利技术适用于传感器、网络点击流和股票交易等领域。

【技术实现步骤摘要】

【技术保护点】
基于分层聚类的滑动窗口多数据流异常检测方法,其特征在于:它包括下述步骤:步骤一、设定滑动窗口尺寸N,通过传感器采集多数据流中第一个窗口的数据流元素作为离线数据进行初始K均值聚类,获得k个做聚结构,完成做聚结构的离线初始化,执行步骤二;其中,N正整数,N大于等于1000,k为设定的在线做聚的聚类特征指数直方图的最大值,步骤二、通过传感器采集多数据流中第T个数据流元素,根据步骤一获得的k个做聚结构,进行在线做聚,获得k’个聚类特征指数直方图,执行步骤三;其中,T为正整数,T的初始值为1;k’≤k,k和k’均为正整数,步骤三、判断是否接收到对步骤二获得的k’个聚类特征指数直方图发出的查询指令,若是执行步骤六;若否则执行步骤四;步骤四:令T=T+1,通过传感器采集多数据流中第T个数据流元素,并根据步骤二获得的k’个聚类特征指数直方图进行在线做聚,获得更新的k’个聚类特征指数直方图,执行步骤五;步骤五、判断是否接收到对步骤四获得的k’个聚类特征指数直方图发出查询指令,若是执行步骤六;若否则执行步骤七;步骤六、根据k’个聚类特征指数直方图,提取每个聚类特征指数直方图的头节点中的均值项,从而获得k’个聚类特征指数直方图的k’个均值项,执行步骤八;步骤七:令T=T+1,通过传感器采集多数据流中第T个数据流元素,根据上一个数据元素到达后获得的k’个聚类特征指数直方图进行在线做聚,所述的上一个数据元素为第T?1个数据元素,并获得更新的k’个聚类特征指数直方图,执行步骤五;步骤八、设立离线聚类的类别数目macro_k,根据步骤七获得的k’个聚类特征指数直方图的k’个均值进行离线K均值聚类,通过余弦系数作为度量函数,获得macro_k个离线聚类类别,并执行步骤九;步骤九、根据步骤八获得的macro_k个离线聚类类别,将macro_k个聚类类别中其中含有孤立点或者数据元素个数小于或等于窗口尺寸N的5%的聚类类别作为异常类别,从而获取数据异常检测结果。...

【技术特征摘要】

【专利技术属性】
技术研发人员:刘大同庞景月彭宇罗清华彭喜元
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1