一种分布式数据流的动态挖掘方法技术

技术编号:20947538 阅读:31 留言:0更新日期:2019-04-24 03:41
本发明专利技术公开一种分布式数据流的动态挖掘方法,其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块并进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新;步骤3,局部模式传输阶段:将每个局部节点t时刻的局部模式上传至中心节点;步骤4,中心节点接收所有局部节点的t时刻的局部模式后基于微簇重构全局样本数据集:步骤5,中心节点基于全局样本数据集进行新学习的基础学习器,并将新学习的基础学习器进行当前状态下全局模式的增量式更新。本发明专利技术采用局部挖掘模式,可以最大限度地在本地处理数据,因而减少数据被丢弃的可能性。

A Dynamic Mining Method for Distributed Data Stream

The invention discloses a dynamic mining method for distributed data streams, which comprises the following steps: step 1, each local node collects the current data block at the current T-Time and performs micro-cluster processing; step 2, each local node updates incremental micro-clusters of local patterns; step 3, local mode transmission phase: uploads the local patterns of each local node at T-Time to the central section In step 4, the central node reconstructs the global sample dataset based on micro-cluster after receiving the local pattern at T-Time of all local nodes: in step 5, the central node performs the basic learner of new learning based on the global sample dataset, and updates the basic learner of new learning incrementally in the current state of the global pattern. The invention adopts a local mining mode, which can process data locally to the greatest extent, thereby reducing the possibility of data being discarded.

【技术实现步骤摘要】
一种分布式数据流的动态挖掘方法
本专利技术涉及大数据处理
,尤其涉及一种分布式数据流的动态挖掘方法。
技术介绍
大数据是需求驱动的概念.虽然大数据的4V属性已经给出,但是它们描述地仍然是大数据的表象,所以仍然需要寻找规范化的数据结构来精准刻画大数据的技术特征。面向于大数据所隐藏的分布式和流动性的技术特征,一种称为分布式数据流的数据结构可以为某类大数据的表达提供理想的方式。分布式数据流抓住了大数据的分布式和流动性两个主要技术特征,可以帮助解决很多类型大数据的正规化分析问题。例如:在一个大型网络监控系统中,可能由于网络规模巨大往往需要设置多个监测站点来收集数据,形成分布式的大数据(源),同时数据还会随着时间在不断增长因而表现出典型的流式数据特征,因此分布式数据流可以用来表示这样的大数据。类似地,大型电子商务网站采集的交易大数据也是很适合用分布式数据流来表达和分析。解决分布式数据流的模式发现问题有两条基本途径:(1)将局部数据传送到中心节点后进行模式挖掘(简称数据集成)。(2)在局部节点先挖掘局部模式后再将它们集成为全局模式(简称模式集成)。前者简单,但是对于大规模、流速快的在线大数据来说网络传输代价太大。后者明显具有效率优势,但是研究很少、自然许多技术细节仍然没有弄清楚。
技术实现思路
本专利技术的目的在于提供一种分布式数据流的动态挖掘方法。本专利技术采用的技术方案是:一种分布式数据流的动态挖掘方法,其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块,并将每个局部节点的当前数据块进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新:每个局部节点对t时刻收集的经微簇处理的当前数据块与t-1时刻维护的局部模式进行增量式更新形成t时刻的局部模式;步骤3,局部模式传输阶段:将每个局部节点t时刻的局部模式上传至中心节点;步骤4,中心节点接收所有局部节点的t时刻的局部模式后基于微簇重构全局样本数据集:步骤5,中心节点基于全局样本数据集进行新学习的基础学习器,并将新学习的基础学习器进行当前状态下全局模式的增量式更新。进一步地,步骤1中局部节点的当前数据块的微簇处理步骤如下:步骤101,收集当前t时刻每个局部节点的当前数据块,并调用经典聚类算法当前数据块划分成k个子数据块;步骤102,对每个子数据块生成它的微簇,微簇结构包括子数据块的元素数、均值、方差。进一步地,步骤101调用k-means聚类算法将当前数据块划分为k个子数据块。进一步地,步骤2的局部节点的增量式微簇更新的具体步骤为:步骤201,计算t-1时刻维护的微簇数量与当前t时刻的微簇数量之和M;步骤202,判断M是否大于当前局部节点最大微簇维护数m;当M大于当前局部节点最大微簇维护数m时,执行步骤203;否则,执行步骤205;步骤203,寻找两个最合适合并的微簇:计算任意两个微簇合并后的合并簇的统计值,从合并簇的统计值不大于对应两个微簇的各自统计值之和的组合对中选取各自统计值之和最小的两个微簇作为最适合合并的微簇;步骤204,将选取的两个最合适合并的微簇进行合并,更新微簇数量和微簇的统计值,返回执行步骤202;步骤205,设置最终的不大于m个的微簇为该局部节点的t时刻的局部模式。进一步地,步骤4的具体步骤如下:步骤401,利用每个微簇的统计值重新生成n个样本数据,保证重构的n个样本数据符合对应微簇的均值和方差的统计值;步骤402,将所有微簇重构获得样本数据为中心节点学习的全局样本数据集。进一步地,步骤5的具体步骤如下:步骤501,利用已经重构的全局样本数据集学习p个基础学习器;步骤502,判断t时刻新学习的基础学习器的数目加上t-1时刻已掌握的基础学习器的数目的总数n是否大于该中心节点的全局模式的集成分类器最大允许数q;当总数n大于集成分类器最大允许数q,则执行步骤503;否则,执行步骤504;步骤503,使用被测试数据对基础分类器进行测试,选取测试准确率最低的基础分类器淘汰掉,返回执行步骤502;步骤504,将不大于q个基础学习器设置为当前的集成学习器。本专利技术采用以上技术方案,针对目前广泛采用的分布式的大数据的数据集成策略,设计分布式数据流的模式集成技术构架,有效解决现有的数据集成大量占用网络带宽且存在效率低下甚至很难完成的瓶颈问题。本专利技术具有如下明显的优势:(1)降低网络传输代价。因为一个节点收集的数据一般很大,而在本局部节点进行知识挖掘形成的知识模式可以将数据进行抽象和概化,所以传送模式必然比直接传送数据的代价要小的多。(2)有效减少数据丢弃现象。(3)本专利技术采用局部挖掘模式,可以最大限度地在本地处理数据,因而减少数据被丢弃的可能性,有效地避免了现有的数据集成方案中当高速流动数据来不及传输到中心节点时只能强迫丢弃导致影响挖掘质量的情况。附图说明以下结合附图和具体实施方式对本专利技术做进一步详细说明;图1为本专利技术可实施的一种体系构架示意图;图2为本专利技术一种分布式数据流的动态挖掘方法的流程示意图。具体实施方式如图1或2所示,本专利技术公开了一种分布式数据流的动态挖掘方法,其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块,并将每个局部节点的当前数据块进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新:每个局部节点对t时刻收集的经微簇处理的当前数据块与t-1时刻维护的局部模式进行增量式更新形成t时刻的局部模式;步骤3,局部模式传输阶段:将每个局部节点t时刻的局部模式上传至中心节点;步骤4,中心节点接收所有局部节点的t时刻的局部模式后基于微簇重构全局样本数据集:步骤5,中心节点基于全局样本数据集进行新学习的基础学习器,并将新学习的基础学习器进行当前状态下全局模式的增量式更新。进一步地,步骤1中局部节点的当前数据块的微簇处理步骤如下:步骤101,收集当前t时刻每个局部节点的当前数据块,并调用经典聚类算法当前数据块划分成k个子数据块;步骤102,对每个子数据块生成它的微簇,微簇结构包括子数据块的元素数、均值、方差。进一步地,步骤101调用k-means聚类算法将当前数据块划分为k个子数据块。进一步地,由于随着数据流的向前流动,t时刻挖掘出的局部模式需要和已有的t-1时刻获得的模式进行融合,因此本模块主要是解决当前获得的微簇和已有微簇的融合问题。步骤2的局部节点的增量式微簇更新的具体步骤为:步骤201,计算t-1时刻维护的微簇数量与当前t时刻的微簇数量之和M;步骤202,判断M是否大于当前局部节点最大微簇维护数m;当M大于当前局部节点最大微簇维护数m时,执行步骤203;否则,执行步骤205;步骤203,寻找两个最合适合并的微簇:计算任意两个微簇合并后的合并簇的统计值,从合并簇的统计值不大于对应两个微簇的各自统计值之和的组合对中选取各自统计值之和最小的两个微簇作为最适合合并的微簇;步骤204,将选取的两个最合适合并的微簇进行合并,更新微簇数量和微簇的统计值,返回执行步骤202;步骤205,设置最终的不大于m个的微簇为该局部节点的t时刻的局部模式。进一步地,由于在中心节点获得的是局部节点的微簇模式,利用它们不能直接来更新中心节点的全局模式,本实例采用微簇的样本重构方法,其原则是重构的学习样本符合微簇所记录的重要统计参数。步骤4的具体本文档来自技高网...

【技术保护点】
1.一种分布式数据流的动态挖掘方法,其特征在于:其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块,并将每个局部节点的当前数据块进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新:每个局部节点对t时刻收集的经微簇处理的当前数据块与t‑1时刻维护的局部模式进行增量式更新形成t时刻的局部模式;步骤3,局部模式传输阶段:将每个局部节点t时刻的局部模式上传至中心节点;步骤4,中心节点接收所有局部节点的t时刻的局部模式后基于微簇重构全局样本数据集:步骤5,中心节点基于全局样本数据集进行新学习的基础学习器,并将新学习的基础学习器进行当前状态下全局模式的增量式更新。

【技术特征摘要】
1.一种分布式数据流的动态挖掘方法,其特征在于:其包括以下步骤:步骤1,每个局部节点收集当前t时刻的当前数据块,并将每个局部节点的当前数据块进行微簇处理;步骤2,每个局部节点进行局部模式的增量式微簇更新:每个局部节点对t时刻收集的经微簇处理的当前数据块与t-1时刻维护的局部模式进行增量式更新形成t时刻的局部模式;步骤3,局部模式传输阶段:将每个局部节点t时刻的局部模式上传至中心节点;步骤4,中心节点接收所有局部节点的t时刻的局部模式后基于微簇重构全局样本数据集:步骤5,中心节点基于全局样本数据集进行新学习的基础学习器,并将新学习的基础学习器进行当前状态下全局模式的增量式更新。2.根据权利要求1所述的一种分布式数据流的动态挖掘方法,其特征在于:步骤1中局部节点的当前数据块的微簇处理步骤如下:步骤101,收集当前t时刻每个局部节点的当前数据块,并调用经典聚类算法将当前数据块划分成k个子数据块;步骤102,对每个子数据块生成它的微簇,微簇结构包括子数据块的元素数、均值、方差。3.根据权利要求2所述的一种分布式数据流的动态挖掘方法,其特征在于:步骤101调用k-means聚类算法将当前数据块划分为k个子数据块。4.根据权利要求1所述的一种分布式数据流的动态挖掘方法,其特征在于:步骤2的局部节点的增量式微簇更新的具体步骤为:步骤201,计算t-1时刻维护的微簇数量与当前t时刻的微簇数量之和M;步骤202,判断M是否大于当前局部节点最大微簇维...

【专利技术属性】
技术研发人员:毛国君
申请(专利权)人:福建工程学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1