【技术实现步骤摘要】
一种二次聚类方法及系统
本专利技术属于数据流挖掘
,尤其涉及一种二次聚类方法及系统。
技术介绍
近年来,随着硬件技术的发展,有越来越多的应用产生数据流,数据流不同于传统的存储在磁盘上的静态数据,而是一类新的数据对象,它是无限的、连续的、有序的、快速变化的、海量的数据;典型的数据流包括网络与道路交通监测系统的监测信息数据、电信部门的通话记录数据、由传感器传回的各种监测数据、股票交易所的股票价格信息数据以及环境温度的监测数据等。数据流本身的这些特点决定了对数据流进行处理时只能对数据作一到两遍的扫描,并只能临时存储少量的数据。因此原来很多成熟的数据挖掘、数据分析和数据查询技术在数据流上变得不适用了,需要提出新的解决方法。因此,数据流的问题一出现马上引起了研究者的重视,出现了很多研究成果,对数据流从管理、查询、分析与挖掘算法等多个方面进行了研究;数据流挖掘技术作为数据挖掘领域的新问题,很多挖掘算法需要针对数据流进行改造;数据流聚类分析作为数据流挖掘的一个重要研究方向,同样面临着巨大的挑战,也引起了研究者们的广泛关注,目前出现了不少相关的研究成果,并应用到 ...
【技术保护点】
一种二次聚类方法,其特征在于,包括以下步骤:对数据流进行分块并读入数据块;使用DBSCAN算法聚类,获得密度簇参考点;对获取的所述密度簇参考点进行k?means算法聚类并采用分层的结构保存k?means算法聚类所获得的k均值参考点。
【技术特征摘要】
1.一种二次聚类方法,其特征在于,包括以下步骤: 对数据流进行分块并读入数据块; 使用DBSCAN算法聚类,获得密度簇参考点; 对获取的所述密度簇参考点进行k-means算法聚类并采用分层的结构保存kneans算法聚类所获得的k均值参考点。2.根据权利要求1所述的方法,其特征在于: 对数据流进行分块并读入数据块的过程为:在滑动窗口内实现对数据流的分块循环处理,并获取最终的聚类结果;如果数据未处理完,则读入下一数据块,直到数据流处理完为止。3.根据权利要求1所述的方法,其特征在于:密度簇参考点的定义如下: 假设数据流中数据以块XI,X2,...,Xn,..?的形式到达,每块都可以在内存中进行处理,每个数据块包含相同数目的数据点; 定义1: {I古 :密度簇参考点:对时刻t到达的数据块Xt,以基于密度的聚类算法进行聚类,生成k。(kt=l,2,...)个聚簇,均值点分别为cl,..., Ci,..., ek,则数据块将由k。个形如(ci, ni)的二元组构成,ni为Xi中隶属于ci的数据点数目,称rd(ei,ni)为数据流中的密度簇参考点。4.根据权利要求1所述的方法,其特征在于:k均值参考点的定义如下: 假设数据流中数据...
【专利技术属性】
技术研发人员:侯德龙,
申请(专利权)人:浪潮北京电子信息产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。