【技术实现步骤摘要】
本专利技术涉及一种基于storm 的实时数据计算平台。
技术介绍
随着互联网的高速发展,大数据时代来临,为了更好的数据挖掘和更好的用户体验,对大数据管理的实时性要求提高。传统的批量计算模型已无法满足这些要求,网络数据格式多种多样,不方便存储及操作。
技术实现思路
本专利技术的目的是提供一种基于storm 的实时数据计算平台,本专利技术一种基于流式计算的大数据预处理方法,解决数据处理实时性较差,数据格式不统一的问题,以便能更好更全面的对数据进行处理和存储。本专利技术提供的技术方案为:基于storm 的实时数据计算平台,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。优选的是,所述的基于storm 的实时数据计算平台,还包括数据处理记录模块,其对数据处理数目及过程进行记录。优选的是,所述的基于storm 的实时数据计算平台,还包括数据丢失配置模块,其对丢失的数据进行配置处理并生成记录。优选的是,在所述的基于storm 的实时数据计算平台中,所述数据计算结果分发单元为KAFKA信息分发单元。优选的是,在 ...
【技术保护点】
基于storm 的实时数据计算平台,其特征在于,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。
【技术特征摘要】
1.基于storm 的实时数据计算平台,其特征在于,包括:数据采集模块,其采集网络数据,并将网络数据处理成预设固定格式的数据流;数据分类模块,其与所述数据采集模块连接,将数据流根据预设的分组条件分成子数据流并存储;数据计算控制模块,其与所述数据分类存储模块连接,所述数据计算控制模块包括数据筛选单元,数据比对过滤单元,数据计算单元和数据计算结果分发单元,所述数据筛选单元根据预设筛选条件对存储的子数据流进行筛选,所述数据比对过滤单元将筛选过的子数据流和所需的数据流进行比对过滤,所述数据计算单元根据预设的计算表达式进行计算通过所述数据计算结构分发单元将计算结果分发输出。2.如权利要...
【专利技术属性】
技术研发人员:杨昆,阎星娥,严荣明,张林,石旦,颜婷婷,
申请(专利权)人:南京唯实科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。