当前位置: 首页 > 专利查询>济南大学专利>正文

一种基于密度峰值的数据流聚类方法及装置制造方法及图纸

技术编号:21953747 阅读:19 留言:0更新日期:2019-08-24 18:12
本公开公开了一种基于密度峰值的数据流聚类方法及装置,以密度峰值和模糊聚类方法为基础,首次提出的疑似离群点的概念,以宽度自适应采样窗口模型以及空间‑时间衰减机制为主要创新点,以提高算法对数据流聚类的效率为主要目标和出发点,创新性地提出了一种新的数据流聚类方法及装置,即一种基于密度峰值的数据流聚类方法及装置,在保障可观的聚类精度前提下,获得更高效的数据流聚类效果。

A Data Flow Clustering Method and Device Based on Peak Density

【技术实现步骤摘要】
一种基于密度峰值的数据流聚类方法及装置
本公开属于数据流聚类的
,涉及一种基于密度峰值的数据流聚类方法及装置。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。当今世界正处于以人工智能、机器学习、大数据分析、虚拟现实等先进技术为主导的第四次科技革命中,智能时代到来的趋势已势如破竹,各行各业都在积极加入到智能化大潮中,努力提高生产效率和竞争力。数据,是智能时代这一饕餮盛宴的原生材料,巨量的高维数据蕴含着丰富的信息和知识,而随着个人终端技术和网络技术的飞速发展,信息交互日益频繁,通信量也大大提高,网络中无时无刻都存在着源源不断的流动的数据,这些时刻在网络介质中快速传播的数据成为一种新的数据形式——数据流,对于大多数企业、单位是不可能将网络数据全部截取后保存到存储介质中再统一分析的,一是硬件资源要求极高,二是网络数据具有一定的时效性,全部存储下来再分析得出的结果、知识可能已经过时。而数据流还有一个特点就是无标签,属于无监督学习的研究对象,聚类分析是无监督学习中的重要内容,而面对数据流,传统的全局聚类算法已经不再适用,需要一种高效的面向数据流的聚类算法来实时地对数据进行分析并反馈其分析结果。最经典的数据流聚类算法是由K-means算法改进来的CluStream算法,这也是数据流聚类算法的起点。后来出现了CluStream算法的改进版——HPStream算法,使其面向高维数据流时更鲁棒。由于它们的核心算法还是基于K-means的,只能发现球型簇,当面对非球型簇的时候便会暴露其缺点,于是基于密度的数据流聚类算法DenStream被提出,另外基于数据流网格模型的D-Stream算法也是一种基于密度的算法。另外,由于数据流中的高维数据形式不统一,难免会存在混合型数据,传统的聚类算法便无法有效进行处理,于是面向混合属性的数据流聚类算法HCLuStream便被提出,使得聚类算法更能适应于真是的数据流环境。然而,专利技术人在研发过程中发现,虽然这些算法都为数据流聚类做出了各自的贡献,完善了数据流动态聚类的方法,使其越来越满足实际应用要求,但都存在一个问题,他们的主要关注点都是在数据类型上,根据数据情况而提出相应的改进,也就是重点放在聚类精度上,然而面对数据流,聚类效率也是极其重要的内容,如何使算法能够自适应调整使自身可以高效处理尽可能多的数据,而不丢失信息也是一个有意义的研究点。
技术实现思路
针对现有技术中存在的不足,本公开的一个或多个实施例提供了一种基于密度峰值的数据流聚类方法及装置,采用模糊聚类保证基本的聚类效率,引入密度峰值算法保证基本的聚类精度,在这两者基础上提出疑似离群点的概念来提高聚类方法的准确率,引入空间-时间衰减机制和自适应采样数据窗口模型来保障聚类方法的高效性。本公开可以有效地应用于企事业单位数据分析,特别是时效性要求较高且数据量较大的应用环境,可以实时、高效、直观地获得聚类分析的结果。根据本公开的一个或多个实施例的一个方面,提供一种基于密度峰值的数据流聚类方法。一种基于密度峰值的数据流聚类方法,该方法包括:接收首批待聚类的数据流数据,初始化参数和数据结构;接收新一批待聚类的数据流数据作为新数据,进行新数据的预聚类,同时将旧有数据流数据进行衰减;将新一批待聚类的数据流数据和旧有数据流数据及其数据结构进行合并,并聚类合并后的数据,所述合并后的数据成为旧有数据;对旧有数据进行疑似离群点的筛选更新;所述疑似离群点为根据旧有数据计算的权值大于阈值的对象点;根据旧有数据的衰减情况确定下一迭代中数据采样窗口的宽度;根据采用密度峰值算法得到的疑似离群点的最大密度中心情况进行增簇,或根据现有簇心间的空间位置进行簇的合并;返回接收新一批待聚类的数据流数据的步骤继续数据流聚类迭代,当采样窗口到达待聚类的数据流尾部时,结束数据流聚类。进一步地,在该方法中,初始化的所述参数包括簇个数,簇心矩阵,首批待聚类的数据流数据,聚类结果序列,生存时间序列,衰减权值序列,疑似离群点筛选权值序列。进一步地,在该方法中,所述初始化参数还包括对所述首批待聚类的数据流数据进行模糊聚类计算,得到初始隶属度矩阵和调整后的簇心矩阵。进一步地,在该方法中,所述初始化数据结构为根据首批待聚类的数据流数据,将各个数据结构的值进行相应的调整。进一步地,在该方法中,所述进行新数据的预聚类为将新一批待聚类的数据流数据以初始化参数中簇心矩阵的初始值或上一迭代中的簇心矩阵为基准进行模糊聚类,得到其隶属度矩阵。进一步地,在该方法中,所述将旧有数据流数据进行衰减为对旧有数据根据衰减权重进行衰减,衰减掉权值低于预设的衰减阈值的旧有数据点,调整旧有数据各个数据结构及其值;所述衰减权重根据空间因素和时间因素计算。进一步地,在该方法中,所述增簇的具体步骤包括:根据采用密度峰值算法得到的疑似离群点的密度最大的密度中心;当有密度中心的密度大于预设密度阈值时,将该密度中心作为新增簇的簇心新增一个新簇;所述簇的合并的具体步骤包括:根据现有簇心间的空间位置判断现有簇心中是否有两个簇心之间距离小于预设簇心距离阈值;当两个簇心之间距离小于预设簇心距离阈值时,将两个簇进行合并。进一步地,在该方法中,所述采样窗口到达待聚类的数据流尾部的判断方法的具体步骤包括:根据下一迭代中数据采样窗口的宽度控制下一批待聚类的数据流数据的数据量;判断剩余待聚类的数据流的数据量是否小于下一批待聚类的数据流数据的数据量,如果是,则将剩余待聚类的数据流的数据量赋值至下一批待聚类的数据流数据的数据量,并进行最后的迭代运算,结束迭代,否则继续。根据本公开的一个或多个实施例的一个方面,提供一种计算机可读存储介质。一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于密度峰值的数据流聚类方法。根据本公开的一个或多个实施例的一个方面,提供一种终端设备。一种终端设备,其包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于密度峰值的数据流聚类方法。根据本公开的一个或多个实施例的一个方面,提供一种基于密度峰值的数据流聚类装置。一种基于密度峰值的数据流聚类装置,基于所述的一种基于密度峰值的数据流聚类方法,包括:初始化模块,被配置为接收首批待聚类的数据流数据,初始化参数和数据结构;预聚类与衰减并行模块,被配置为接收新一批待聚类的数据流数据作为新数据,进行新数据的预聚类,同时将旧有数据流数据进行衰减;新旧数据合并模块,被配置为将新一批待聚类的数据流数据和旧有数据流数据及其数据结构进行合并,并聚类合并后的数据,所述合并后的数据成为旧有数据;疑似离散点筛选模块,被配置为对旧有数据进行疑似离群点的筛选更新;所述疑似离群点为根据旧有数据计算的权值大于阈值的对象点;下批数据量确定模块,被配置为根据旧有数据的衰减情况确定下一迭代中数据采样窗口的宽度;增簇减簇模块,被配置为根据采用密度峰值算法得到的疑似离群点的最高密度中心情况进行增簇,或根据现有簇心间的空间位置进行簇的合并;数据流聚类结束检测模块,被配置为返回接收新一批待聚类的数据流数据的步骤继续数据流聚类迭代,当采样窗口到达待聚类的数本文档来自技高网
...

【技术保护点】
1.一种基于密度峰值的数据流聚类方法,其特征在于,该方法包括:接收首批待聚类的数据流数据,初始化参数和数据结构;接收新一批待聚类的数据流数据作为新数据,进行新数据的预聚类,同时将旧有数据流数据进行衰减;将新一批待聚类的数据流数据和旧有数据流数据及其数据结构进行合并,并聚类合并后的数据,所述合并后的数据成为旧有数据;对旧有数据进行疑似离群点的筛选更新;所述疑似离群点为根据旧有数据计算的权值大于阈值的对象点;根据旧有数据的衰减情况确定下一迭代中数据采样窗口的宽度;根据采用密度峰值算法得到的疑似离群点的最大密度中心情况进行增簇,或根据现有簇心间的空间位置进行簇的合并;返回接收新一批待聚类的数据流数据的步骤继续数据流聚类迭代,当采样窗口到达待聚类的数据流尾部时,结束数据流聚类。

【技术特征摘要】
1.一种基于密度峰值的数据流聚类方法,其特征在于,该方法包括:接收首批待聚类的数据流数据,初始化参数和数据结构;接收新一批待聚类的数据流数据作为新数据,进行新数据的预聚类,同时将旧有数据流数据进行衰减;将新一批待聚类的数据流数据和旧有数据流数据及其数据结构进行合并,并聚类合并后的数据,所述合并后的数据成为旧有数据;对旧有数据进行疑似离群点的筛选更新;所述疑似离群点为根据旧有数据计算的权值大于阈值的对象点;根据旧有数据的衰减情况确定下一迭代中数据采样窗口的宽度;根据采用密度峰值算法得到的疑似离群点的最大密度中心情况进行增簇,或根据现有簇心间的空间位置进行簇的合并;返回接收新一批待聚类的数据流数据的步骤继续数据流聚类迭代,当采样窗口到达待聚类的数据流尾部时,结束数据流聚类。2.如权利要求1所述的一种基于密度峰值的数据流聚类方法,其特征在于,在该方法中,初始化的所述参数包括簇个数,簇心矩阵,首批待聚类的数据流数据,聚类结果序列,生存时间序列,衰减权值序列,疑似离群点筛选权值序列。3.如权利要求2所述的一种基于密度峰值的数据流聚类方法,其特征在于,在该方法中,所述初始化参数还包括对所述首批待聚类的数据流数据进行模糊聚类计算,得到初始隶属度矩阵和调整后的簇心矩阵。进一步地,在该方法中,所述初始化数据结构为根据首批待聚类的数据流数据,将各个数据结构的值进行相应的调整。4.如权利要求1所述的一种基于密度峰值的数据流聚类方法,其特征在于,在该方法中,所述进行新数据的预聚类为将新一批待聚类的数据流数据以初始化参数中簇心矩阵的初始值或上一迭代中的簇心矩阵为基准进行模糊聚类,得到其隶属度矩阵。5.如权利要求1所述的一种基于密度峰值的数据流聚类方法,其特征在于,在该方法中,所述将旧有数据流数据进行衰减为对旧有数据根据衰减权重进行衰减,衰减掉权值低于预设的衰减阈值的旧有数据点,调整旧有数据各个数据结构及其值;所述衰减权重根据空间因素和时间因素计算。6.如权利要求1所述的一种基于密度峰值的数据流聚类方法,其特征在于,在该方法中,所述增簇的具体步骤包括:根据采用密度峰值算法得到的疑似离群点的密度最大的密度中心;当有密度中心的密度大于预设密度阈值时,将该密度中心作为新增簇的簇心新增...

【专利技术属性】
技术研发人员:孙红卫张瑞杜韬王信堂许婧文朱连江
申请(专利权)人:济南大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1