一种改进CluStream算法的方法、装置、设备和介质制造方法及图纸

技术编号:26170922 阅读:26 留言:0更新日期:2020-10-31 13:40
本发明专利技术公开了一种改进CluStream算法的方法,包括:将CluStream算法的界标时间窗口模型替换为衰减时间窗口模型,并引入数据衰减速率作为衰减因子,进行微簇的提取;将CluStream算法配置为在对微簇快照进行存储的情况下,对金字塔时间模型配置限制规则以消除不同等级上微簇快照的重复计算;对CluStream算法引入Canopy算法以确定类簇数目和初始聚类中心,并利用Canopy‑Kmeans算法进行离线宏聚类操作的优化处理;将CluStream算法在SparkStreaming上并行化实现;通过SparkStreaming从kafka集群读取从数据源接收的数据以进行实时处理与在线分析。本发明专利技术还公开了一种装置、设备和介质。本发明专利技术能够快速、高效、易用、准确率高地实现对流式数据地实时统计与分析。

【技术实现步骤摘要】
一种改进CluStream算法的方法、装置、设备和介质
本专利技术涉及数据挖掘聚类分析领域,更具体地,特别是指一种改进CluStream算法的方法、装置、设备和介质。
技术介绍
随着信息技术的迅猛发展,在许多领域中数据会以流的形式出现。此类数据随着时间的流逝而不断演化,并且数据规模会持续增大,传统的基于静态数据的聚类挖掘技术不能满足数据流的处理要求,并且当数据流的规模较大时,会超过传统技术的计算能力。为实现在线实时聚类要求,本专利技术基于分布式流式计算框架SparkStreaming,对传统的CluStream算法做出改进,克服其微簇特征向量不能实时反映数据流演化特性以及离线阶段采用的算法对用户要求苛刻并且初始聚类中心随机选取对聚类效果影响很大的缺点,从而实现对高速数据流进行高效精确地实时处理与在线分析。在一些现有技术当中,CluStream算法的核心思想就是金字塔时间快照,以及分为on-line(在线)操作的micro-cluster(微簇)和off-line(离线)操作的macro-cluster(宏聚类)两个阶段,同时属于本文档来自技高网...

【技术保护点】
1.一种改进CluStream算法的方法,其特征在于,所述方法包括:/n将CluStream算法的界标时间窗口模型替换为衰减时间窗口模型,并引入数据衰减速率作为衰减因子,进行微簇的提取;/n将所述CluStream算法配置为在对微簇快照进行存储的情况下,对金字塔时间模型配置限制规则以消除不同等级上所述微簇快照的重复计算;/n对所述CluStream算法引入Canopy算法以确定类簇数目和初始聚类中心,并利用Canopy-Kmeans算法进行离线宏聚类操作的优化处理;/n将所述CluStream算法在所述SparkStreaming上并行化实现;/n通过所述SparkStreaming从kafk...

【技术特征摘要】
1.一种改进CluStream算法的方法,其特征在于,所述方法包括:
将CluStream算法的界标时间窗口模型替换为衰减时间窗口模型,并引入数据衰减速率作为衰减因子,进行微簇的提取;
将所述CluStream算法配置为在对微簇快照进行存储的情况下,对金字塔时间模型配置限制规则以消除不同等级上所述微簇快照的重复计算;
对所述CluStream算法引入Canopy算法以确定类簇数目和初始聚类中心,并利用Canopy-Kmeans算法进行离线宏聚类操作的优化处理;
将所述CluStream算法在所述SparkStreaming上并行化实现;
通过所述SparkStreaming从kafka集群读取从数据源接收的所述数据以进行实时处理与在线分析。


2.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述方法还包括:
使用Http接口作为数据源中数据的入口,通过所述Http接口将所述数据发送至kafka集群。


3.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述对所述CluStream算法引入Canopy算法以确定类簇数目和初始聚类中心,并利用Canopy-Kmeans算法进行离线宏聚类操作的优化处理还包括:
根据接收到的时间阈值确定需要处理的所述微簇的集合;
利用所述Canopy算法计算近似的所述初始聚类中心,将所述初始聚类中心作为K-means的初始化参数,并判断数据流对象的归属;
响应于判断所述数据流对象属于所述Canopy算法的同一对象,通过K-means进行所述离线宏聚类操作。


4.根据权利要求1所述的改进CluStream算法的方法,其特征在于,所述将所述CluStream算法在所述SparkStreaming上并行化实现还包括:
响应于数据流传输到若干局部站点,采用并行化处理策略,所述局部站点针对在线实时的所述数据流对所述微簇进行初始化操作和实时更新操作。


5.根据权利要求4所述的改进CluStream算法的方法,其特征在于,所述将所述CluStream算法在所述SparkStreaming上并行化实现还包括:
响应于中心站点接收到聚...

【专利技术属性】
技术研发人员:熊战磊
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1