面向海量数据流的实时并行分类方法技术

技术编号：13986929 阅读：57 留言：0更新日期：2016-11-13 04:26

本发明专利技术公开了一种面向海量数据流的实时并行分类方法，所述的方法包括以下步骤：步骤一、数据Spout；步骤二、过滤批化Bolt；步骤三、模型Bolt；步骤四、局部统计与计算Bolt；步骤五、评估Bolt。本发明专利技术针对大数据“4V”特点中Volume(海量)、Velocity(高速)、Value(价值)这“3V”特点和海量数据高效处理的需求，实现了基于Storm平台的垂直并行化P‑VFDT算法；在大规模数据上的实验表明，P‑VFDT算法和VFDT算法有着相近的分类性能，但是单机多核环境的P‑VFDT算法比VFDT算法耗时约少12％，集群环境的P‑VFDT算法比VFDT算法耗时约少8％。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网
，涉及一种面向海量数据流的实时并行分类方法。
技术介绍
随着互联网和数据处理技术的不断发展，搜索引擎、电子商务、微博和即时通讯等应用为人们提供了海量的信息和便捷的服务，在丰富人们生活的同时也极大提高了人们的工作效率和生活情趣。人们在使用这些应用和服务的过程中也产生了各种类型的数据，如向搜索引擎发出搜索请求、在电商网站浏览商品，评论转发微博和在线聊天等。这些数据经过一定的时间积累规模都已十分庞大，并且保持着较高的增长速率，大数据的“4V”特点——Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)，日益凸显。海量数据流是指数据总量宏大且到达速率极高的数据流。例如大型传感器网络每秒可收集百万量级数据，网络路由器每秒收集到的数据量更是复杂和规模庞大。数据的总量和增量决定了这些数据不能经过完全存储后再进行处理，而且必须保证对数据的处理速率要大于或等于数据的到达速率才能保证数据处理系统的有效运转。海量数据流的分类，相比于一般的数据流处理过程来说，计算量要高得多，这也对算法的性能提出了更大的挑战。实现对数据流高效准确的分类，具备极大的现实意义。一方面，可以实现对数据的筛选，缩小下游节点处理数据的规模；另一方面，可以实时监控目标类别数据的变化情况，实现对于异常情况实时告警。所以高效准确是应对海量数据流分类时必须解决的问题。相关技术背景(1)Storm相关技术Topology是对运行在Storm集群中一个工作任务的逻辑抽象，Stream是一个无界的数据流序列，其中的一条数据为Tuple，处理Stream...

【技术保护点】
一种面向海量数据流的实时并行分类方法，其特征在于：所述的方法包括以下步骤：步骤一、数据Spout数量为1，连续产生数据记录；步骤二、过滤批化Bolt数量为1，接收数据消息，对收集的数据进行过滤筛选,并积累成批发送给模型Bolt；步骤三、模型Bolt数量为1，对一批数据进行处理，将数据的分类结果，发送给评估Bolt进行评估；将数据进行分解，然后发送给局部统计与计算Bolt的对应Task；当数据所在的叶节点通过划分测试时，向局部统计与计算Bolt的所有Task发送计算消息，请求划分结果；收到局部统计与计算Bolt的所有Task发来的计算结果后，判断是否执行最终划分，如果通过最终划分测试，则执行划分操作，并向局部统计与计算Bolt的所有Task发送删除划分前叶节点的统计信息的消息；步骤四、局部统计与计算Bolt数量为n，收到批属性数据消息时，更新属性相关统计信息；收到计算消息时，计算对应节点的最优划分评估分数；收到删除消息时，删除模型中已经完成分割的节点的属性相关统计信息；步骤五、评估Bolt。

【技术特征摘要】
1.一种面向海量数据流的实时并行分类方法，其特征在于：所述的方法包括以下步骤：步骤一、数据Spout数量为1，连续产生数据记录；步骤二、过滤批化Bolt数量为1，接收数据消息，对收集的数据进行过滤筛选,并积累成批发送给模型Bolt；步骤三、模型Bolt数量为1，对一批数据进行处理，将数据的分类结果，发送给评估Bolt进行评估；将数据进行分解，然后发送给局部统计与计算Bolt的对应Task；当数据所在的叶节点通过划分测试时，向局部统计与计算Bolt的所有Task发送计算消息，请求划分结果；收到局部统计与计算Bolt的所有Task发来的计算结果后，判断是否执行最终划分，如果通过最终划分测试，则执行划分操作，并向局部统计与计算Bolt的所有Task发送删除划分前叶节点的统计信息的消息；步骤四、局部统计与计算Bolt数量为n，收到批属性数据消息时，更新属性相关统计信息；收到计算消息时，计算对应节点的最优划分评估分数；收到删除消息时，删除模型中已经完成分割的节点的属性相关统计信息；步骤五、评估Bolt。2.根据权利要求1所述的面向海量数据流的实时并行分类方法，其特征在于所述的步骤三包括：当模型Bolt收到批数据消息后，对于批数据消息中的每一条数据，找到对应的叶结点，并根据叶节点的数据类标分布进行分类，同时向评估Bolt发出分类结果的消息；如果数据所在的叶节点已经处于划分状态，则无需使用该数据对模型进行训练，只执行分类操作；否则，需要使用该数据对模型进行训练。3.根据权利要求2所述的面向海量数据流的实时并行分类方法，其特征在于所述的对模型进行训练包括：首先更新叶节点的数据类标分布，然后将数据分解为以节点编号、属性编号、属性值的三元组，并添加到节点的属性消息列表中，根据节点的属性消息列表生成批属性消息，同时将叶节点加入到批数据所在叶节点的集合中。4.根据权利要求1所述的面向海量数据流的实时并行分类方法，其特征在于所述的步骤四中，在局部统计与计算Bolt中使用的数据结构包括一个：节点id，属性id，属性统计信息的表格localTable，该Bolt的每一个Task都有一个localTable。5.根据权利要求1所述的面向海量数据流的实时并行分类方法，其特征在于所述的步骤四中，对批属性消息的处理是根据消息中的节点id和属性id，更新属性的统计信息。6.根据权利要求1所述的面向海量数据流的实时并行分类方法，其特征在于所述的步骤四中，对计算消息的处理是通过节点id，计算localTable中该节点的所有属性的可行划分，找出最优和次优划分并作为局部计算结果返回。7.根据权利要求1所述的面向海量数据流的实时并行分类方法，其特征在于所述的步骤四中，对删除消息的处理是根据消息中的节点id，删除localTable中该节点所有属性的统计信息。8.根据权利要求1所述的面向海量数据流的实时并行分类方法，其特征在于所述的步骤五包括：并行与非并行算法性能对比和/或批数据消息的大小对性能的影响分析。9.根据权利要求1所述的面向海量数据流的实时并行分类方法，其特征在于所述的步骤五包括实验分析，所述实验分析中的实验数据通过超平面生成算法生成；所述超平面生成算法包括：设需要生成的数据维度为attNum，每一个维度对应一个属性，数据中噪声比率为noiseP，发生概念漂移的属性数为driftNum，概念漂移幅度为magChange，反向...

【专利技术属性】
技术研发人员：李川，李旺龙，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人