基于移动互联网海量信息的流式预处理系统及其方法技术方案

技术编号：13128793 阅读：108 留言：0更新日期：2016-04-06 14:20

本发明专利技术公开了一种基于移动互联网海量信息的流式预处理系统及其方法，属于大数据领域。本系统是移动互联网（000）、接口机（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）依次连通。本方法主要是：控制模块通过Zookeeper连接Kafka集群，读取Kafka集群中缓存的数据；预处理模块按照指定的处理流程处理数据，最终写入HBase数据库。本发明专利技术弥补了MapReduce不支持流式数据处理的不足；处理速度快，且具有容错性；通过整合分布式消息系统、分布式流式处理框架、hadoop分布式文件系统三种大数据领域的技术，为其它大数据技术之间的模块化整合提供了参考；能够对所有移动互联网的海量信息进行实时处理，可以为运营商的实时业务提供技术支持。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于大数据领域，具体涉及基于移动互联网海量信息的流式预处理系统及其方法。
技术介绍
近年来，移动运营商网络已成为了天然的大数据贮存和流动的载体。移动互联网拥有的数据源丰富多样，包括上网行为数据、位置数据、信令数据、微博数据、即时通信数据、网页、音频数据、视频文件和图片等，且这些数据会不断产生。为了能从这些流式数据中实时地提取有用的信息，过滤掉无用的信息，往往需要对其进行快速处理，接着再以规范化的形式存入数据中心，用以提供高效的查询服务。这类大数据服务对比一般的数据服务，有其自身的特点：首先，业务数据为大数据，新到来的流式数据规模小，结构简单；其次，数据流持续到达，业务数据持续增长，定期更新；最后，需在大数据之上对流式数据作出快速处理。目前，比较流行的数据处理技术方案是使用Hadoop的MapReduce编程模型，MapReduce不仅能并行处理大规模数据，而且扩展性很好，每增加一台服务器，其就能将差不多的计算能力接入到集群中。然而，MapRe...

【技术保护点】
一种基于移动互联网海量信息的流式预处理系统，包括移动互联网000，其特征在于：设置有接口机（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）；移动互联网（000）、接口机（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）依次连通。

【技术特征摘要】
1.一种基于移动互联网海量信息的流式预处理系统，包括移动互联网000，其特征在
于：
设置有接口机（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群（400）；
移动互联网（000）、接口机（100）、Kafka集群（200）、Spark集群（300）和Hadoop集群
（400）依次连通。
2.按权利要求1所述的流式预处理系统，其特征在于：
所述的接口机（100）包括第1接口机（110）、第2接口机（120）……第M接口机（1M0），M是
自然数，1≤M≤5；
每个接口机内嵌有依次交互的文件轮询模块（101）、文件解析模块（102）和数据缓存模
块（103）。
3.按权利要求1所述的流式预处理系统，其特征在于：
所述的Kafka集群（200）包括第1Kafka节点（210）、第2Kafka节点（220）……第NKafka节
点（2N0），N为自然数，1≤N≤10；；
每个Kafka节点是一种内嵌有Kafka开源消息系统的Linux服务器，各节点之间使用
Zookeeper协调管理。
4.按权利要求1所述的流式预处理系统，其特征在于：
所述的Spark集群（300）包括Spark主节点（3A0）和分别与其连接的第1Spark工作节点
（310）、第2Spark工作节点（320）……第OSpark工作节点（3O0），O为自然数，1≤O≤10；
每个节点是一种内嵌有Spark开源计算系统的Linux服务器，各节点之间使用
Zookeeper协调管理；
Spark主节点（3A0）内嵌有SparkStreaming控制模块（3A1）；
SparkStreaming控制模块（3A1）读取Kafka集群中的数据，生成预处理任务分发给工
作节点，自动控制预处理日志，写入HDFS；
每个工作节点内嵌有数据预处理模块（311）；
数据预处理模块（311）按照指定的流程处理数据，最终写入HBase。
5.按权利要求1所述的流式预处理系统，其特征在于：
所述的Hadoop集群（400）包括第1Hadoop节点（410）、第2Hadoop节点（420）……第
PHadoop节点（4P0），P为自然数，1≤P≤10；
每个节点是一种Hadoop开...

【专利技术属性】
技术研发人员：严雄伟，
申请(专利权)人：武汉虹旭信息技术有限责任公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人