基于Spark集群的多数据源位置信息融合方法及系统技术方案

技术编号：15639484 阅读：128 留言：0更新日期：2017-06-15 23:50

本发明专利技术提供了一种基于Spark集群的多数据源位置信息融合方法，并包括如下步骤：通过接口接收海量位置信息数据，所述位置信息数据来源于省级运营商的信令采集系统以及互联网用户行为大数据平台；通过预处理程序将采集到的文本文件进行加密、清洗，剔除无效数据，处理后的数据实时放入Kafka中；通过Spark Streaming对实时的数据进行处理，包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息，并将处理后的所述全量位置信息存入到Redis数据库中；在所述Redis数据库中，按设定的周期对所述全量位置信息进行切片导出，将导出的数据存入到HDFS中，通过Spark SQL接口提供给上层应用调用查询历史数据。本发明专利技术还提供一种基于Spark集群的多数据源位置信息融合方法的系统。

全部详细技术资料下载

【技术实现步骤摘要】
基于Spark集群的多数据源位置信息融合方法及系统
本专利技术属于大数据处理
，具体地涉及一种基于Spark集群的多数据源位置信息融合方法及系统。
技术介绍
随着基于位置信息的应用在各行业的推广，应用前景广阔，各行业需求强烈，无论是旅游行业，还是交通、民政、统计局等政府机关还是零售等行业，都有非常迫切的需求，为大数据应用提供了非常好的落地场景。位置信息基于用户电信2、3、4G网络信令位置、无线侧话单数据、WIFI上网记录、用户上网行为记录中提取的GPS数据及用户相关的属性数据。提供特定区域人口密度监测、人群归属地分析、人群特征分析、客流量预测、停留时长分析、客流对比分析、人群轨迹分析、目标区域关联的服务。用户的位置信息数据来源多，数据量大且实时性非常高，需要实时准确的对多种数据源进行融合处理并输出结果。Spark是UC伯克利大学AMPLabs开发的新的分布式计算协议栈(BDAS)的计算系统，它充分利用内存，因此运行快；它释放了更多的API，因此编写简单(Scala语言)。它很可能在将来替代Hadoop中的MapReduce。其他技术在处理时效性方面都无法达到实时或准实时的地步，但是在某些场景，比如算法交易、欺诈检测、实时处理等方面，需要从大量的信息中及时发现潜在模式，这种情况下，就要使用流处理的技术——Stream。Lambda架构提供了一个流处理和批处理联合的最佳实践。因此，有必要提供出一种可以对各种数据源中的位置数据进行采集分析、记录所有相关的位置，根据各个位置获取时间及相关事件通过特定的算法，将所有的位置信息进行整合，为上层应用提供最准确、最实...
基于Spark集群的多数据源位置信息融合方法及系统

【技术保护点】
一种基于Spark集群的多数据源位置信息融合方法，其特征在于：包括如下步骤：一、通过接口接收海量位置信息数据，所述位置信息数据来源于省级运营商的信令采集系统以及互联网用户行为大数据平台；二、通过预处理程序将采集到的文本文件进行加密、清洗，剔除无效数据，处理后的数据实时放入Kafka中；三、通过Spark Streaming对实时的数据进行处理，包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息，并将处理后的所述全量位置信息存入到Redis数据库中；四、在所述Redis数据库中，按设定的周期对所述全量位置信息进行切片导出，将导出的数据存入到HDFS中，通过Spark SQL接口提供给上层应用调用查询历史数据。

【技术特征摘要】
1.一种基于Spark集群的多数据源位置信息融合方法，其特征在于：包括如下步骤：一、通过接口接收海量位置信息数据，所述位置信息数据来源于省级运营商的信令采集系统以及互联网用户行为大数据平台；二、通过预处理程序将采集到的文本文件进行加密、清洗，剔除无效数据，处理后的数据实时放入Kafka中；三、通过SparkStreaming对实时的数据进行处理，包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息，并将处理后的所述全量位置信息存入到Redis数据库中；四、在所述Redis数据库中，按设定的周期对所述全量位置信息进行切片导出，将导出的数据存入到HDFS中，通过SparkSQL接口提供给上层应用调用查询历史数据。2.根据权利要求1所述的基于Spark集群的多数据源位置信息融合方法，其特征在于：在步骤二中通过预处理程序将采集到的文本文件进行加密、清洗，剔除无效数据步骤包括如下步骤：通过Socket接口，从信令共享平台接收实时的信令数据，从无线网优平台获取无线网优话单数据；对每一条信令数据进行判断处理，收取与位置相关的信令信息；对信令数据进行清洗过滤，剔除字段缺失、字段异常等错误或无效的数据；对获取的位置信令信息与标准化的基站基础信息进行匹配关联，得到经纬度信息。3.根据权利要求1所述的基于Spark集群的多数据源位置信息融合方法，其特征在于：所述步骤一中，所述位置信息数据包括基站位置数据、通话短信数据、无线话单数据信息、GPS数据、Wifi上网记录数据和4G信令数据。4.根据权利要求3所述的基于Spark集群的多数据源位置信息融合方法，其特征...

【专利技术属性】
技术研发人员：戴侃，许恺，黄强松，陈辉，
申请(专利权)人：江苏号百信息服务有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人