【技术实现步骤摘要】
一种基于大数据架构的Wifi探针设备管控系统
[0001]本专利技术属于技术侦察和大数据
,尤其涉及一种基于大数据架构的Wifi探针设备管控系统。
技术介绍
[0002]Wifi探针设备是一种基于IEEE 802.11协议的probe帧,可以主动识别并无感知获取智能手机、路由器、Pad、笔记本电脑等个人移动设备终端特征参数,包括MAC地址、Wifi网络名称、时间、Wifi信号强度、Wifi信号频道、经纬度等信息数据。通过对这些数据进行碰撞、关联分析与研判,可以实现特殊用户身份溯源、行为轨迹精准刻画,及时发现、了解、掌握事态发展情况并针对重点对象进行跟踪、定位、管控等,为执法部门管控特定用户上网行为、维护社会安全稳定提供有力保障。
[0003]然而,随着系统中大量Wifi探针设备部署与设备工作时间的积累,必然会产生海量采集数据,面临海量数据规模环境下的高吞吐传输、数据存储、实时统计分析等诸多技术挑战。
技术实现思路
[0004]有鉴于此,本专利技术的目的在于提供一种基于大数据架构的Wifi探针设备管控系统,可以为数据碰撞、关联分析研判提供支持,实现对特殊用户的身份溯源、行为轨迹精准刻画、实时态势展示,能够有效规范重点人群的上网行为。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据架构的Wifi探针设备管控系统,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机;所述Wifi探针设备集群子系统用于采集海量Wif ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据架构的Wifi探针设备管控系统,其特征在于,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机;所述Wifi探针设备集群子系统用于采集海量Wifi探针数据;所述单向光闸用于实现海量Wifi探针数据的单向传输;所述数据接入子系统提供对海量Wifi探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送服务;所述业务应用子系统用于实现管控系统的管理配置、数据统计分析及结果展示;所述数据集群子系统用于提供海量Wifi探针数据的分布式接收、分布式存储及内存式分析计算的硬件资源;所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接。2.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的Wifi探针设备集群子系统由部署在前端的多节点Wifi探针设备组成,Wifi探针设备将数据加密并每小时生成日志文件,并经单向光闸传输至专网内的数据接入子系统。3.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统,其特征在于,所述的数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块;所述Flume模块包括Event、Channel和Sink,用于实时收集并接收海量Wifi探针数据;Flume模块首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块;其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;所述Kafka模块包括Producer、Consumer和Topic,用于实时写入或读出数据;在写入数据阶段,Producer接收Flume模块传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume模块将数据实时传递给HDFS模块进行文件式存储,或者将数据传递给Spark模块进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费;其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;所述HDFS模块包括NameNode、DataNode和JournalNode,用于分布式存储海量探针数据并提供高吞吐量的数据访问;NameNode接收Flume模块传递的数据,对数据进行分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督;其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;所述Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算;其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3GB内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12GB内存空间和4个CPU核;所述Hive模块包括HiveServer、MetaStore和DBService,用于提供大数据平台批处理
计算能力,通过Spark模块实现对海量探针数据的实时/离线数据解析、分析计算;对于实时性要求较高的情况,对Kafka模块实时接收的数据进行数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对Kafka模块接收的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;对于实时性要求不高的情况,对HDFS模块中已存储的文件进行离线数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对HDFS模块中相应的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;所述Presto模块包括Client、Coordinator、Metastore和Worker,用于大数据级别分布式的查询引擎;业务应用子系统通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务;查询结果放入内存并由业务应用...
【专利技术属性】
技术研发人员:戎凯旋,牛景昌,张策,徐会斌,朱晓岚,张书敬,邓星魁,薛梦天,侯风茂,
申请(专利权)人:成都博纳神梭科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。