一种基于大数据架构的Wifi探针设备管控系统技术方案

技术编号:31485804 阅读:37 留言:0更新日期:2021-12-18 12:21
本发明专利技术公开了一种基于大数据架构的Wifi探针设备管控系统,涉及技术侦察和大数据技术领域。其包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统和网络交换机。本发明专利技术实现了一种分布式存储、内存式计算、高速实时比对和实时态势展示的基于大数据架构的Wifi探针设备管控系统,具有功能丰富、性能高效、配置灵活、可扩充能力强等优点,特别适合技术侦察和大数据技术领域中利用海量Wifi探针数据的场景,可针对重点人员的行为轨迹进行精准刻画和实时态势展示,具有较强的推广应用价值。有较强的推广应用价值。有较强的推广应用价值。

【技术实现步骤摘要】
一种基于大数据架构的Wifi探针设备管控系统


[0001]本专利技术属于技术侦察和大数据
,尤其涉及一种基于大数据架构的Wifi探针设备管控系统。

技术介绍

[0002]Wifi探针设备是一种基于IEEE 802.11协议的probe帧,可以主动识别并无感知获取智能手机、路由器、Pad、笔记本电脑等个人移动设备终端特征参数,包括MAC地址、Wifi网络名称、时间、Wifi信号强度、Wifi信号频道、经纬度等信息数据。通过对这些数据进行碰撞、关联分析与研判,可以实现特殊用户身份溯源、行为轨迹精准刻画,及时发现、了解、掌握事态发展情况并针对重点对象进行跟踪、定位、管控等,为执法部门管控特定用户上网行为、维护社会安全稳定提供有力保障。
[0003]然而,随着系统中大量Wifi探针设备部署与设备工作时间的积累,必然会产生海量采集数据,面临海量数据规模环境下的高吞吐传输、数据存储、实时统计分析等诸多技术挑战。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于大数据架构的Wifi探针设备管控系统,可以为数据碰撞、关联分析研判提供支持,实现对特殊用户的身份溯源、行为轨迹精准刻画、实时态势展示,能够有效规范重点人群的上网行为。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据架构的Wifi探针设备管控系统,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机;所述Wifi探针设备集群子系统用于采集海量Wifi探针数据;所述单向光闸用于实现海量Wifi探针数据的单向传输;所述数据接入子系统提供对海量Wifi探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送服务;所述业务应用子系统用于实现管控系统的管理配置、数据统计分析及结果展示;所述数据集群子系统用于提供海量Wifi探针数据的分布式接收、分布式存储及内存式分析计算的硬件资源;所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接。
[0006]进一步的,所述的Wifi探针设备集群子系统由部署在前端的多节点Wifi探针设备组成,Wifi探针设备将数据加密并每小时生成日志文件,并经单向光闸传输至专网内的数据接入子系统。
[0007]进一步的,所述的数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块;
所述Flume模块包括Event、Channel和Sink,用于实时收集并接收海量Wifi探针数据;Flume模块首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块;其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;所述Kafka模块包括Producer、Consumer和Topic,用于实时写入或读出数据;在写入数据阶段,Producer接收Flume模块传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume模块将数据实时传递给HDFS模块进行文件式存储,或者将数据传递给Spark模块进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费;其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;所述HDFS模块包括NameNode、DataNode和JournalNode,用于分布式存储海量探针数据并提供高吞吐量的数据访问;NameNode接收Flume模块传递的数据,对数据进行分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督;其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;所述Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算;其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3GB内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12GB内存空间和4个CPU核;所述Hive模块包括HiveServer、MetaStore和DBService,用于提供大数据平台批处理计算能力,通过Spark模块实现对海量探针数据的实时/离线数据解析、分析计算;对于实时性要求较高的情况,对Kafka模块实时接收的数据进行数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对Kafka模块接收的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;对于实时性要求不高的情况,对HDFS模块中已存储的文件进行离线数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对HDFS模块中相应的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;所述Presto模块包括Client、Coordinator、Metastore和Worker,用于大数据级别分布式的查询引擎;业务应用子系统通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务;查询结果放入内存并由业务应用子系统调用并展现;其中,Presto master端的max

memory设置为60GB,最大线程数max

worker

threads设置为10;slave端的max

memory设置为64GB,slave端的最大线程数max

worker

threads设置为10。
[0008]进一步的,所述的业务应用子系统包括系统管理平台、统计分析平台、案事件分析平台、系统配置平台、显控终端;所述系统管理平台包括系统登录模块、设备管理模块、场所管理模块、厂商管理模块、联系人管理模块、升级管理模块;系统登录模块用于对操作员的用户名和密码身份信息进行验证,提供系统登录和退出;设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据架构的Wifi探针设备管控系统,其特征在于,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机;所述Wifi探针设备集群子系统用于采集海量Wifi探针数据;所述单向光闸用于实现海量Wifi探针数据的单向传输;所述数据接入子系统提供对海量Wifi探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送服务;所述业务应用子系统用于实现管控系统的管理配置、数据统计分析及结果展示;所述数据集群子系统用于提供海量Wifi探针数据的分布式接收、分布式存储及内存式分析计算的硬件资源;所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接。2.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的Wifi探针设备集群子系统由部署在前端的多节点Wifi探针设备组成,Wifi探针设备将数据加密并每小时生成日志文件,并经单向光闸传输至专网内的数据接入子系统。3.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块;所述Flume模块包括Event、Channel和Sink,用于实时收集并接收海量Wifi探针数据;Flume模块首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块;其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;所述Kafka模块包括Producer、Consumer和Topic,用于实时写入或读出数据;在写入数据阶段,Producer接收Flume模块传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume模块将数据实时传递给HDFS模块进行文件式存储,或者将数据传递给Spark模块进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费;其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;所述HDFS模块包括NameNode、DataNode和JournalNode,用于分布式存储海量探针数据并提供高吞吐量的数据访问;NameNode接收Flume模块传递的数据,对数据进行分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督;其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;所述Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算;其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3GB内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12GB内存空间和4个CPU核;所述Hive模块包括HiveServer、MetaStore和DBService,用于提供大数据平台批处理
计算能力,通过Spark模块实现对海量探针数据的实时/离线数据解析、分析计算;对于实时性要求较高的情况,对Kafka模块实时接收的数据进行数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对Kafka模块接收的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;对于实时性要求不高的情况,对HDFS模块中已存储的文件进行离线数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对HDFS模块中相应的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;所述Presto模块包括Client、Coordinator、Metastore和Worker,用于大数据级别分布式的查询引擎;业务应用子系统通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务;查询结果放入内存并由业务应用...

【专利技术属性】
技术研发人员:戎凯旋牛景昌张策徐会斌朱晓岚张书敬邓星魁薛梦天侯风茂
申请(专利权)人:成都博纳神梭科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1