一种基于Hadoop的用户行为数据处理方法技术

技术编号：15822793 阅读：65 留言：0更新日期：2017-07-15 04:58

本发明专利技术涉及一种基于Hadoop的用户行为数据处理方法，所述方法包括：将用户历史数据源导入到分布式文件系统HDFS中；基于所述用户历史数据源生成用户的历史行为数据表；通过Flume收集用户的实时行为数据流；Kafka实时记录从所述Flume收集的数据；根据实时行为数据流的不同业务类型，运用实时计算框架Spark实时处理用户行为产生的实时数据，以生成用户的实时数据表；运用所述IMSI库中的IMSI号关联用户的实时数据表和历史行为数据表，得到用户的行为数据宽表；根据预设配置文件将所述用户的行为数据宽表输出并保存到HBase数据库中；将查询系统Impala与HBase数据库整合，以向外部提供用户行为数据的查询入口。本发明专利技术提供的技术方案，能够建立高效、精细化的用户行为数据业务体系。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Hadoop的用户行为数据处理方法
本专利技术属于通信
，涉及一种基于Hadoop的用户行为数据处理方法。
技术介绍
随着4G网络的商用和广泛部署，移动通信业务已经正式全面进入移动互联网时代，飞速发展的移动网络带宽直接带来繁杂的应用和用户行为，而通信网络中的数据复杂度、信息量都随之迅速增长，导致数据处理的复杂度和运算量要求都随之有了更高的要求，传统数据库体系的数据处理能力受到了极大的挑战。而面对海量数据处理需求和更低的时延性限制要求，传统数据系统投入的CPU计算能力、内存响应和吞吐、网络带宽都有着巨大的基准，且在高安全性，多中心的发展趋势下面临诸多的瓶颈。大数据时代的到来使单节点的计算模式已经不能满足数据处理的需求，分布式数据处理与存储系统逐步成为大数据平台首选的架构，大数据技术成为了众相研究的热点。而Hadoop大数据平台主要基于静态数据文件的并行处理，虽然在海量数据吞吐、计算、存储方面有着极高的效率，但是实时性较差，属于高吞吐，高并发，高时延的架构，对于小文件的处理性能一直是其不可回避的问题，故针对一些实时性较高的数据处理和使用场景下无能为力。目...
一种基于Hadoop的用户行为数据处理方法

【技术保护点】
一种基于Hadoop的用户行为数据处理方法，其特征在于，所述方法包括：将用户历史数据源导入到分布式文件系统HDFS中，以通过所述HDFS提供数据访问接口；其中，所述用户历史数据源包括国际移动用户识别码IMSI库、国际移动设备身份码IMEI库以及爬虫库中的至少一种；基于所述用户历史数据源生成用户的历史行为数据表；通过数据采集工具Flume收集用户的实时行为数据流，所述实时行为数据流包括用户实时上网日志以及用户互联网行为实时解析数据；分布式订阅系统Kafka实时记录从所述Flume收集的数据，并作为消息缓冲组件为实时计算框架提供数据；根据实时行为数据流的不同业务类型，运用实时计算框架Spark实时...

【技术特征摘要】
1.一种基于Hadoop的用户行为数据处理方法，其特征在于，所述方法包括：将用户历史数据源导入到分布式文件系统HDFS中，以通过所述HDFS提供数据访问接口；其中，所述用户历史数据源包括国际移动用户识别码IMSI库、国际移动设备身份码IMEI库以及爬虫库中的至少一种；基于所述用户历史数据源生成用户的历史行为数据表；通过数据采集工具Flume收集用户的实时行为数据流，所述实时行为数据流包括用户实时上网日志以及用户互联网行为实时解析数据；分布式订阅系统Kafka实时记录从所述Flume收集的数据，并作为消息缓冲组件为实时计算框架提供数据；根据实时行为数据流的不同业务类型，运用实时计算框架Spark实时处理用户行为产生的实时数据，以生成用户的实时数据表；运用所述IMSI库中的IMSI号关联用户的实时数据表和历史行为数据表，得到用户的行为数据宽表；根据预设配置文件将所述用户的行为数据宽表输出并保存到HBase数据库中；将查询系统Impala与HBase数据库整合，以向外部提供用户行为数据的查询入口。2.根据权利要求1所述的方法，其特征在于，基于所述用户历史数据源生成用户的历史行为数据表包括：通过所述IMSI库中的IMSI号关联所...

【专利技术属性】
技术研发人员：陈粤龙，陈敏俊，温亮生，张治中，赵瑞莉，
申请(专利权)人：重庆邮电大学，中移杭州信息技术有限公司，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人