The invention discloses a dynamic mining method for distributed data streams, which comprises the following steps: step 1, each local node collects the current data block at the current T-Time and performs micro-cluster processing; step 2, each local node updates incremental micro-clusters of local patterns; step 3, local mode transmission phase: uploads the local patterns of each local node at T-Time to the central section In step 4, the central node reconstructs the global sample dataset based on micro-cluster after receiving the local pattern at T-Time of all local nodes: in step 5, the central node performs the basic learner of new learning based on the global sample dataset, and updates the basic learner of new learning incrementally in the current state of the global pattern. The invention adopts a local mining mode, which can process data locally to the greatest extent, thereby reducing the possibility of data being discarded.
【技术实现步骤摘要】
一种分布式数据流的动态挖掘方法
本专利技术涉及大数据处理
,尤其涉及一种分布式数据流的动态挖掘方法。
技术介绍
大数据是需求驱动的概念.虽然大数据的4V属性已经给出,但是它们描述地仍然是大数据的表象,所以仍然需要寻找规范化的数据结构来精准刻画大数据的技术特征。面向于大数据所隐藏的分布式和流动性的技术特征,一种称为分布式数据流的数据结构可以为某类大数据的表达提供理想的方式。分布式数据流抓住了大数据的分布式和流动性两个主要技术特征,可以帮助解决很多类型大数据的正规化分析问题。例如:在一个大型网络监控系统中,可能由于网络规模巨大往往需要设置多个监测站点来收集数据,形成分布式的大数据(源),同时数据还会随着时间在不断增长因而表现出典型的流式数据特征,因此分布式数据流可以用来表示这样的大数据。类似地,大型电子商务网站采集的交易大数据也是很适合用分布式数据流来表达和分析。解决分布式数据流的模式发现问题有两条基本途径:(1)将局部数据传送到中心节点后进行模式挖掘(简称数据集成)。(2)在局部节点先挖掘局部模式后再将它们集成为全局模式(简称模式集成)。前者简单,但是对于大规模、流速快的在线大数据来说网络传输代价太大。后者明显具有效率优势,但是研究很少、自然许多技术细节仍然没有弄清楚。
技术实现思路
本专利技术的目的在于提供一种分布式数据流的动态挖掘方法。本专利技术采用的技术方案是:一种分布式数据流的动态挖掘方法,其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块,并将每个局部节点的当前数据块进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新:每个 ...
【技术保护点】
1.一种分布式数据流的动态挖掘方法,其特征在于:其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块,并将每个局部节点的当前数据块进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新:每个局部节点对t时刻收集的经微簇处理的当前数据块与t‑1时刻维护的局部模式进行增量式更新形成t时刻的局部模式;步骤3,局部模式传输阶段:将每个局部节点t时刻的局部模式上传至中心节点;步骤4,中心节点接收所有局部节点的t时刻的局部模式后基于微簇重构全局样本数据集:步骤5,中心节点基于全局样本数据集进行新学习的基础学习器,并将新学习的基础学习器进行当前状态下全局模式的增量式更新。
【技术特征摘要】
1.一种分布式数据流的动态挖掘方法,其特征在于:其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块,并将每个局部节点的当前数据块进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新:每个局部节点对t时刻收集的经微簇处理的当前数据块与t-1时刻维护的局部模式进行增量式更新形成t时刻的局部模式;步骤3,局部模式传输阶段:将每个局部节点t时刻的局部模式上传至中心节点;步骤4,中心节点接收所有局部节点的t时刻的局部模式后基于微簇重构全局样本数据集:步骤5,中心节点基于全局样本数据集进行新学习的基础学习器,并将新学习的基础学习器进行当前状态下全局模式的增量式更新。2.根据权利要求1所述的一种分布式数据流的动态挖掘方法,其特征在于:步骤1中局部节点的当前数据块的微簇处理步骤如下:步骤101,收集当前t时刻每个局部节点的当前数据块,并调用经典聚类算法将当前数据块划分成k个子数据块;步骤102,对每个子数据块生成它的微簇,微簇结构包括子数据块的元素数、均值、方差。3.根据权利要求2所述的一种分布式数据流的动态挖掘方法,其特征在于:步骤101调用k-means聚类算法将当前数据块划分为k个子数据块。4.根据权利要求1所述的一种分布式数据流的动态挖掘方法,其特征在于:步骤2的局部节点的增量式微簇更新的具体步骤为:步骤201,计算t-1时刻维护的微簇数量与当前t时刻的微簇数量之和M;步骤202,判断M是否大于当前局部节点最大微簇维...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。