一种基于密度峰值的数据流聚类方法及装置制造方法及图纸

技术编号：21953747 阅读：19 留言：0更新日期：2019-08-24 18:12

本公开公开了一种基于密度峰值的数据流聚类方法及装置，以密度峰值和模糊聚类方法为基础，首次提出的疑似离群点的概念，以宽度自适应采样窗口模型以及空间‑时间衰减机制为主要创新点，以提高算法对数据流聚类的效率为主要目标和出发点，创新性地提出了一种新的数据流聚类方法及装置，即一种基于密度峰值的数据流聚类方法及装置，在保障可观的聚类精度前提下，获得更高效的数据流聚类效果。

A Data Flow Clustering Method and Device Based on Peak Density

全部详细技术资料下载

【技术实现步骤摘要】
一种基于密度峰值的数据流聚类方法及装置
本公开属于数据流聚类的
，涉及一种基于密度峰值的数据流聚类方法及装置。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。当今世界正处于以人工智能、机器学习、大数据分析、虚拟现实等先进技术为主导的第四次科技革命中，智能时代到来的趋势已势如破竹，各行各业都在积极加入到智能化大潮中，努力提高生产效率和竞争力。数据，是智能时代这一饕餮盛宴的原生材料，巨量的高维数据蕴含着丰富的信息和知识，而随着个人终端技术和网络技术的飞速发展，信息交互日益频繁，通信量也大大提高，网络中无时无刻都存在着源源不断的流动的数据，这些时刻在网络介质中快速传播的数据成为一种新的数据形式——数据流，对于大多数企业、单位是不可能将网络数据全部截取后保存到存储介质中再统一分析的，一是硬件资源要求极高，二是网络数据具有一定的时效性，全部存储下来再分析得出的结果、知识可能已经过时。而数据流还有一个特点就是无标签，属于无监督学习的研究对象，聚类分析是无监督学习中的重要内容，而面对数据流，传统的全局聚类算法已经不再适用，需要一种高效的面向数据流的聚类算法来实时地对数据进行分析并反馈其分析结果。最经典的数据流聚类算法是由K-means算法改进来的CluStream算法，这也是数据流聚类算法的起点。后来出现了CluStream算法的改进版——HPStream算法，使其面向高维数据流时更鲁棒。由于它们的核心算法还是基于K-means的，只能发现球型簇，当面对非球型簇的时候便会暴露其缺点，于是基于密度的数据流聚类算法DenStream...

【技术保护点】
1.一种基于密度峰值的数据流聚类方法，其特征在于，该方法包括：接收首批待聚类的数据流数据，初始化参数和数据结构；接收新一批待聚类的数据流数据作为新数据，进行新数据的预聚类，同时将旧有数据流数据进行衰减；将新一批待聚类的数据流数据和旧有数据流数据及其数据结构进行合并，并聚类合并后的数据，所述合并后的数据成为旧有数据；对旧有数据进行疑似离群点的筛选更新；所述疑似离群点为根据旧有数据计算的权值大于阈值的对象点；根据旧有数据的衰减情况确定下一迭代中数据采样窗口的宽度；根据采用密度峰值算法得到的疑似离群点的最大密度中心情况进行增簇，或根据现有簇心间的空间位置进行簇的合并；返回接收新一批待聚类的数据流数据的步骤继续数据流聚类迭代，当采样窗口到达待聚类的数据流尾部时，结束数据流聚类。

【技术特征摘要】
1.一种基于密度峰值的数据流聚类方法，其特征在于，该方法包括：接收首批待聚类的数据流数据，初始化参数和数据结构；接收新一批待聚类的数据流数据作为新数据，进行新数据的预聚类，同时将旧有数据流数据进行衰减；将新一批待聚类的数据流数据和旧有数据流数据及其数据结构进行合并，并聚类合并后的数据，所述合并后的数据成为旧有数据；对旧有数据进行疑似离群点的筛选更新；所述疑似离群点为根据旧有数据计算的权值大于阈值的对象点；根据旧有数据的衰减情况确定下一迭代中数据采样窗口的宽度；根据采用密度峰值算法得到的疑似离群点的最大密度中心情况进行增簇，或根据现有簇心间的空间位置进行簇的合并；返回接收新一批待聚类的数据流数据的步骤继续数据流聚类迭代，当采样窗口到达待聚类的数据流尾部时，结束数据流聚类。2.如权利要求1所述的一种基于密度峰值的数据流聚类方法，其特征在于，在该方法中，初始化的所述参数包括簇个数，簇心矩阵，首批待聚类的数据流数据，聚类结果序列，生存时间序列，衰减权值序列,疑似离群点筛选权值序列。3.如权利要求2所述的一种基于密度峰值的数据流聚类方法，其特征在于，在该方法中，所述初始化参数还包括对所述首批待聚类的数据流数据进行模糊聚类计算，得到初始隶属度矩阵和调整后的簇心矩阵。进一步地，在该方法中，所述初始化数据结构为根据首批待聚类的数据流数据，将各个数据结构的值进行相应的调整。4.如权利要求1所述的一种基于密度峰值的数据流聚类方法，其特征在于，在该方法中，所述进行新数据的预聚类为将新一批待聚类的数据流数据以初始化参数中簇心矩阵的初始值或上一迭代中的簇心矩阵为基准进行模糊聚类，得到其隶属度矩阵。5.如权利要求1所述的一种基于密度峰值的数据流聚类方法，其特征在于，在该方法中，所述将旧有数据流数据进行衰减为对旧有数据根据衰减权重进行衰减，衰减掉权值低于预设的衰减阈值的旧有数据点，调整旧有数据各个数据结构及其值；所述衰减权重根据空间因素和时间因素计算。6.如权利要求1所述的一种基于密度峰值的数据流聚类方法，其特征在于，在该方法中，所述增簇的具体步骤包括：根据采用密度峰值算法得到的疑似离群点的密度最大的密度中心；当有密度中心的密度大于预设密度阈值时，将该密度中心作为新增簇的簇心新增...

【专利技术属性】
技术研发人员：孙红卫，张瑞，杜韬，王信堂，许婧文，朱连江，
申请(专利权)人：济南大学，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人