【技术实现步骤摘要】
本专利技术属于大数据领域,具体涉及基于移动互联网海量信息的流式预处理系统及其方法。
技术介绍
近年来,移动运营商网络已成为了天然的大数据贮存和流动的载体。移动互联网拥有的数据源丰富多样,包括上网行为数据、位置数据、信令数据、微博数据、即时通信数据、网页、音频数据、视频文件和图片等,且这些数据会不断产生。为了能从这些流式数据中实时地提取有用的信息,过滤掉无用的信息,往往需要对其进行快速处理,接着再以规范化的形式存入数据中心,用以提供高效的查询服务。这类大数据服务对比一般的数据服务,有其自身的特点:首先,业务数据为大数据,新到来的流式数据规模小,结构简单;其次,数据流持续到达,业务数据持续增长,定期更新;最后,需在大数据之上对流式数据作出快速处理。目前,比较流行的数据处理技术方案是使用Hadoop的MapReduce编程模型,MapReduce不仅能并行处理大规模数据,而且扩展性很好,每增加一台服务器,其就能将差不多的计算能力接入到集群中。然而,MapRe ...
【技术保护点】
一种基于移动互联网海量信息的流式预处理系统,包括移动互联网000,其特征在于:设置有接口机(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400);移动互联网(000)、接口机(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400)依次连通。
【技术特征摘要】
1.一种基于移动互联网海量信息的流式预处理系统,包括移动互联网000,其特征在
于:
设置有接口机(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群(400);
移动互联网(000)、接口机(100)、Kafka集群(200)、Spark集群(300)和Hadoop集群
(400)依次连通。
2.按权利要求1所述的流式预处理系统,其特征在于:
所述的接口机(100)包括第1接口机(110)、第2接口机(120)……第M接口机(1M0),M是
自然数,1≤M≤5;
每个接口机内嵌有依次交互的文件轮询模块(101)、文件解析模块(102)和数据缓存模
块(103)。
3.按权利要求1所述的流式预处理系统,其特征在于:
所述的Kafka集群(200)包括第1Kafka节点(210)、第2Kafka节点(220)……第NKafka节
点(2N0),N为自然数,1≤N≤10;;
每个Kafka节点是一种内嵌有Kafka开源消息系统的Linux服务器,各节点之间使用
Zookeeper协调管理。
4.按权利要求1所述的流式预处理系统,其特征在于:
所述的Spark集群(300)包括Spark主节点(3A0)和分别与其连接的第1Spark工作节点
(310)、第2Spark工作节点(320)……第OSpark工作节点(3O0),O为自然数,1≤O≤10;
每个节点是一种内嵌有Spark开源计算系统的Linux服务器,各节点之间使用
Zookeeper协调管理;
Spark主节点(3A0)内嵌有SparkStreaming控制模块(3A1);
SparkStreaming控制模块(3A1)读取Kafka集群中的数据,生成预处理任务分发给工
作节点,自动控制预处理日志,写入HDFS;
每个工作节点内嵌有数据预处理模块(311);
数据预处理模块(311)按照指定的流程处理数据,最终写入HBase。
5.按权利要求1所述的流式预处理系统,其特征在于:
所述的Hadoop集群(400)包括第1Hadoop节点(410)、第2Hadoop节点(420)……第
PHadoop节点(4P0),P为自然数,1≤P≤10;
每个节点是一种Hadoop开...
【专利技术属性】
技术研发人员:严雄伟,
申请(专利权)人:武汉虹旭信息技术有限责任公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。