基于storm 的实时数据计算平台制造技术

技术编号:13749228 阅读:63 留言:0更新日期:2016-09-24 09:21
本发明专利技术公开了基于storm 的实时数据计算平台,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与数据分类存储模块连接,对数据进行计算控制。本发明专利技术的有益效果是本发明专利技术支持对数据的提取、过滤、截断、切分、格式化,可对庞大的连续的数据流进行提取、过滤、分析操作,实时性高、有效性高,在数据接入的过程中通过本发明专利技术就已经被处理成方便使用、处理、存储的数据。本发明专利技术可计算复杂度高、维度多的数据,低成本、高效率、安全性高。

【技术实现步骤摘要】

本专利技术涉及一种基于storm 的实时数据计算平台
技术介绍
随着互联网的高速发展,大数据时代来临,为了更好的数据挖掘和更好的用户体验,对大数据管理的实时性要求提高。传统的批量计算模型已无法满足这些要求,网络数据格式多种多样,不方便存储及操作。
技术实现思路
本专利技术的目的是提供一种基于storm 的实时数据计算平台,本专利技术一种基于流式计算的大数据预处理方法,解决数据处理实时性较差,数据格式不统一的问题,以便能更好更全面的对数据进行处理和存储。本专利技术提供的技术方案为:基于storm 的实时数据计算平台,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。优选的是,所述的基于storm 的实时数据计算平台,还包括数据处理记录模块,其对数据处理数目及过程进行记录。优选的是,所述的基于storm 的实时数据计算平台,还包括数据丢失配置模块,其对丢失的数据进行配置处理并生成记录。优选的是,在所述的基于storm 的实时数据计算平台中,所述数据计算结果分发单元为KAFKA信息分发单元。优选的是,在所述的基于storm 的实时数据计算平台中,所述数据计算控制模块还包括缓存单元和数据清除单元,所述缓存单元对数据进行分区缓存,所述数据清除单元根据预设清零条件对所述缓存单元缓存的数据进行清除。本专利技术的有益效果是本专利技术支持对数据的提取、过滤、截断、切分、格式化,可对庞大的连续的数据流进行提取、过滤、分析操作,实时性高、有效性高,在数据接入的过程中通过本专利技术就已经被处理成方便使用、处理、存储的数据。本专利技术可计算复杂度高、维度多的数据,低成本、高效率、安全性高。附图说明图1为本专利技术工作流程示意图。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。基于storm 的实时数据计算平台,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与数据分类存储模块连接,数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,数据计算单元根据预设的计算表达式进行计算通过数据计算结构分发单元将计算结果分发输出;数据处理记录模块,其对数据处理数目及过程进行记录;数据丢失配置模块,其对丢失的数据进行配置处理并生成记录。其中,数据计算结果分发单元为KAFKA信息分发单元,数据计算控制模块还包括缓存单元和数据清除单元,缓存单元对数据进行分区缓存,数据清除单元根据预设清零条件对缓存单元缓存的数据进行清除。采用本专利技术的预处理方法支持提取、过滤、截断、切分、格式化,可对庞大的连续的数据流进行提取、过滤、分析操作,实时性高、有效性高,在数据接入的过程中通过本专利技术就已经被处理成方便使用、处理、存储的数据。本平台可扩展性强,在多个线程、进程、服务器之间并行进行,支持灵活的水平扩展;本平台可以保证每条进入本平台的消息都能被完全处理;如果在消息处理中出现了一些异常,本平台会重新安排这个出错的处理单元,故本平台具有较高的容错性。尽管本专利技术的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本专利技术的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本专利技术并不限于特定的细节和这里示出与描述的图例。本文档来自技高网...

【技术保护点】
基于storm 的实时数据计算平台,其特征在于,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。

【技术特征摘要】
1.基于storm 的实时数据计算平台,其特征在于,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。2.如权利要...

【专利技术属性】
技术研发人员:杨昆阎星娥严荣明张林石旦颜婷婷
申请(专利权)人:南京唯实科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1