基于Spark集群的多数据源位置信息融合方法及系统技术方案

技术编号:15639484 阅读:128 留言:0更新日期:2017-06-15 23:50
本发明专利技术提供了一种基于Spark集群的多数据源位置信息融合方法,并包括如下步骤:通过接口接收海量位置信息数据,所述位置信息数据来源于省级运营商的信令采集系统以及互联网用户行为大数据平台;通过预处理程序将采集到的文本文件进行加密、清洗,剔除无效数据,处理后的数据实时放入Kafka中;通过Spark Streaming对实时的数据进行处理,包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息,并将处理后的所述全量位置信息存入到Redis数据库中;在所述Redis数据库中,按设定的周期对所述全量位置信息进行切片导出,将导出的数据存入到HDFS中,通过Spark SQL接口提供给上层应用调用查询历史数据。本发明专利技术还提供一种基于Spark集群的多数据源位置信息融合方法的系统。

【技术实现步骤摘要】
基于Spark集群的多数据源位置信息融合方法及系统
本专利技术属于大数据处理
,具体地涉及一种基于Spark集群的多数据源位置信息融合方法及系统。
技术介绍
随着基于位置信息的应用在各行业的推广,应用前景广阔,各行业需求强烈,无论是旅游行业,还是交通、民政、统计局等政府机关还是零售等行业,都有非常迫切的需求,为大数据应用提供了非常好的落地场景。位置信息基于用户电信2、3、4G网络信令位置、无线侧话单数据、WIFI上网记录、用户上网行为记录中提取的GPS数据及用户相关的属性数据。提供特定区域人口密度监测、人群归属地分析、人群特征分析、客流量预测、停留时长分析、客流对比分析、人群轨迹分析、目标区域关联的服务。用户的位置信息数据来源多,数据量大且实时性非常高,需要实时准确的对多种数据源进行融合处理并输出结果。Spark是UC伯克利大学AMPLabs开发的新的分布式计算协议栈(BDAS)的计算系统,它充分利用内存,因此运行快;它释放了更多的API,因此编写简单(Scala语言)。它很可能在将来替代Hadoop中的MapReduce。其他技术在处理时效性方面都无法达到实时或准实时的地步,但是在某些场景,比如算法交易、欺诈检测、实时处理等方面,需要从大量的信息中及时发现潜在模式,这种情况下,就要使用流处理的技术——Stream。Lambda架构提供了一个流处理和批处理联合的最佳实践。因此,有必要提供出一种可以对各种数据源中的位置数据进行采集分析、记录所有相关的位置,根据各个位置获取时间及相关事件通过特定的算法,将所有的位置信息进行整合,为上层应用提供最准确、最实时的位置数据的基于Spark集群的多数据源位置信息融合方法。
技术实现思路
本专利技术的目的在于提供一种可以对各种数据源中的位置数据进行采集分析、记录所有相关的位置,根据各个位置获取时间及相关事件通过特定的算法,将所有的位置信息进行整合,为上层应用提供最准确、最实时的位置数据的基于Spark集群的多数据源位置信息融合方法。本专利技术的技术方案如下:一种基于Spark集群的多数据源位置信息融合方法,包括如下步骤:一、通过接口接收海量位置信息数据,所述位置信息数据来源于省级运营商的信令采集系统以及互联网用户行为大数据平台;二、通过预处理程序将采集到的文本文件进行加密、清洗,剔除无效数据,处理后的数据实时放入Kafka中;三、通过SparkStreaming对实时的数据进行处理,包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息,并将处理后的所述全量位置信息存入到Redis数据库中;四、在所述Redis数据库中,按设定的周期对所述全量位置信息进行切片导出,将导出的数据存入到HDFS中,通过SparkSQL接口提供给上层应用调用查询历史数据。优选地,在步骤二中通过预处理程序将采集到的文本文件进行加密、清洗,剔除无效数据步骤包括如下步骤:通过Socket接口,从信令共享平台接收实时的信令数据,从无线网优平台获取无线网优话单数据;对每一条信令数据进行判断处理,收取与位置相关的信令信息;对信令数据进行清洗过滤,剔除字段缺失、字段异常等错误或无效的数据;对获取的位置信令信息与标准化的基站基础信息进行匹配关联,得到经纬度信息。优选地,所述步骤一中,所述位置信息数据包括基站位置数据、通话短信数据、无线话单数据信息、GPS数据、Wifi上网记录数据和4G信令数据。优选地,在步骤三中,融合遵循数据准确度优先级,越精确的数据优先级最高,数据精确性优先级从高到低为GPS数据、4G数据、2G/3G基站位置数据。优选地,在步骤四中,对于Redis中的实时位置数据,可以提供实时的API查询统计数据,供上层应用使用。一种根据上述基于Spark集群的多数据源位置信息融合方法的系统,包括:实时数据采集过滤模块、实时数据融合模块和数据分析扩散模块,所述实时数据采集过滤模块,用于通过接口接收海量位置信息数据,并通过预处理程序将采集到的文本文件进行加密、清洗,剔除无效数据,处理后的数据实时放入Kafka中;所述实时数据融合模块,用于通过SparkStreaming对实时的数据进行处理,包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息,并将处理后的所述全量位置信息存入到Redis数据库中;所述数据分析扩散模块,用于按设定的周期对所述全量位置信息进行切片导出,将导出的数据存入到HDFS中,通过SparkSQL接口提供给上层应用调用查询历史数据。优选地,在所述实时数据融合模块中,融合遵循数据准确度优先级,越精确的数据优先级最高,数据精确性优先级从高到低为GPS数据、4G数据、2G/3G基站位置数据。优选地,在所述数据分析扩散模块中,基于融合性数据源,利用Spark集群离线计算能力,对HDFS中的存量数据进行分析、统计、扩样,并封装成相应的API接口。本专利技术提供的技术方案具有如下有益效果:1.基于位置信息形成融合的、标准化的位置输出能力。通过从移动网DPI中提取基站小区位置、从移动网DPI中提取GPS位置信息、从4G信令数据中提取基站位置信息,弥补单一从2G基站获取的位置信息精度不高及实时性不高的问题。融合多数据源后,形成的位置数据基础能力,提高用户位置信息的精确度、持续性、完整性,形成完整的位置信息能力输出。2.利用Spark计算集群的实时处理能力,对海量的多数据源实现不间断的连续在线处理分析,处理能力达到每秒20000条以上记录,处理的时延小于5min,而传统的数据入库-处理-分析的流程,至少有3-6个小时的时延,无法提供实时准确的位置数据。同时,使用Spark的离线数据分析处理能力对历史存量数据进行挖掘分析,相较于传统的Map/Reduce的方式提高了10倍以上的性能。3.形成基于位置数据的实时应用能力。基于实时的位置数据,以系统的方式提供:实时客流分析,游客来源地分析,游客属性分析,停留时间统计,客流对比分析,客流预测分析,景区关联分析等实时分析功能。附图说明图1是本专利技术实施例提供的基于Spark集群的多数据源位置信息融合方法的流程示意图;图2是图1所示基于Spark集群的多数据源位置信息融合方法的数据处理流程示意图;图3是图1所示基于Spark集群的多数据源位置信息融合方法的实时数据采集过滤的流程示意图;图4是图1所示基于Spark集群的多数据源位置信息融合方法的实时数据融合的流程示意图;图5是基于图1所示基于Spark集群的多数据源位置信息融合方法的结构框图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。除非上下文另有特定清楚的描述,本专利技术中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本专利技术并不对此进行限定。本专利技术中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。请同时参阅图1和图2,本专利技术实施例提供的基于Sp本文档来自技高网
...
基于Spark集群的多数据源位置信息融合方法及系统

【技术保护点】
一种基于Spark集群的多数据源位置信息融合方法,其特征在于:包括如下步骤:一、通过接口接收海量位置信息数据,所述位置信息数据来源于省级运营商的信令采集系统以及互联网用户行为大数据平台;二、通过预处理程序将采集到的文本文件进行加密、清洗,剔除无效数据,处理后的数据实时放入Kafka中;三、通过Spark Streaming对实时的数据进行处理,包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息,并将处理后的所述全量位置信息存入到Redis数据库中;四、在所述Redis数据库中,按设定的周期对所述全量位置信息进行切片导出,将导出的数据存入到HDFS中,通过Spark SQL接口提供给上层应用调用查询历史数据。

【技术特征摘要】
1.一种基于Spark集群的多数据源位置信息融合方法,其特征在于:包括如下步骤:一、通过接口接收海量位置信息数据,所述位置信息数据来源于省级运营商的信令采集系统以及互联网用户行为大数据平台;二、通过预处理程序将采集到的文本文件进行加密、清洗,剔除无效数据,处理后的数据实时放入Kafka中;三、通过SparkStreaming对实时的数据进行处理,包括对实时位置的计算、融合、统计、轨迹生成操作获得全量位置信息,并将处理后的所述全量位置信息存入到Redis数据库中;四、在所述Redis数据库中,按设定的周期对所述全量位置信息进行切片导出,将导出的数据存入到HDFS中,通过SparkSQL接口提供给上层应用调用查询历史数据。2.根据权利要求1所述的基于Spark集群的多数据源位置信息融合方法,其特征在于:在步骤二中通过预处理程序将采集到的文本文件进行加密、清洗,剔除无效数据步骤包括如下步骤:通过Socket接口,从信令共享平台接收实时的信令数据,从无线网优平台获取无线网优话单数据;对每一条信令数据进行判断处理,收取与位置相关的信令信息;对信令数据进行清洗过滤,剔除字段缺失、字段异常等错误或无效的数据;对获取的位置信令信息与标准化的基站基础信息进行匹配关联,得到经纬度信息。3.根据权利要求1所述的基于Spark集群的多数据源位置信息融合方法,其特征在于:所述步骤一中,所述位置信息数据包括基站位置数据、通话短信数据、无线话单数据信息、GPS数据、Wifi上网记录数据和4G信令数据。4.根据权利要求3所述的基于Spark集群的多数据源位置信息融合方法,其特征...

【专利技术属性】
技术研发人员:戴侃许恺黄强松陈辉
申请(专利权)人:江苏号百信息服务有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1