一种基于大数据架构的Wifi探针设备管控系统技术方案

技术编号：31485804 阅读：37 留言：0更新日期：2021-12-18 12:21

本发明专利技术公开了一种基于大数据架构的Wifi探针设备管控系统，涉及技术侦察和大数据技术领域。其包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统和网络交换机。本发明专利技术实现了一种分布式存储、内存式计算、高速实时比对和实时态势展示的基于大数据架构的Wifi探针设备管控系统，具有功能丰富、性能高效、配置灵活、可扩充能力强等优点，特别适合技术侦察和大数据技术领域中利用海量Wifi探针数据的场景，可针对重点人员的行为轨迹进行精准刻画和实时态势展示，具有较强的推广应用价值。有较强的推广应用价值。有较强的推广应用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据架构的Wifi探针设备管控系统

[0001]本专利技术属于技术侦察和大数据
，尤其涉及一种基于大数据架构的Wifi探针设备管控系统。

技术介绍

[0002]Wifi探针设备是一种基于IEEE 802.11协议的probe帧，可以主动识别并无感知获取智能手机、路由器、Pad、笔记本电脑等个人移动设备终端特征参数，包括MAC地址、Wifi网络名称、时间、Wifi信号强度、Wifi信号频道、经纬度等信息数据。通过对这些数据进行碰撞、关联分析与研判，可以实现特殊用户身份溯源、行为轨迹精准刻画，及时发现、了解、掌握事态发展情况并针对重点对象进行跟踪、定位、管控等，为执法部门管控特定用户上网行为、维护社会安全稳定提供有力保障。
[0003]然而，随着系统中大量Wifi探针设备部署与设备工作时间的积累，必然会产生海量采集数据，面临海量数据规模环境下的高吞吐传输、数据存储、实时统计分析等诸多技术挑战。

技术实现思路

[0004]有鉴于此，本专利技术的目的在于提供一种基于大数据架构的Wifi探针设备管控系统，可以为数据碰撞、关联分析研判提供支持，实现对特殊用户的身份溯源、行为轨迹精准刻画、实时态势展示，能够有效规范重点人群的上网行为。
[0005]为实现上述目的，本专利技术提供如下技术方案：一种基于大数据架构的Wifi探针设备管控系统，包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机；所述Wifi探针设备集群子系统用于采集海量Wif...

【技术保护点】

【技术特征摘要】
1.一种基于大数据架构的Wifi探针设备管控系统，其特征在于，包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机；所述Wifi探针设备集群子系统用于采集海量Wifi探针数据；所述单向光闸用于实现海量Wifi探针数据的单向传输；所述数据接入子系统提供对海量Wifi探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送服务；所述业务应用子系统用于实现管控系统的管理配置、数据统计分析及结果展示；所述数据集群子系统用于提供海量Wifi探针数据的分布式接收、分布式存储及内存式分析计算的硬件资源；所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接。2.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统，其特征在于，所述的Wifi探针设备集群子系统由部署在前端的多节点Wifi探针设备组成，Wifi探针设备将数据加密并每小时生成日志文件，并经单向光闸传输至专网内的数据接入子系统。3.根据权利要求1所述的一种基于大数据架构的Wifi探针设备管控系统，其特征在于，所述的数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块；所述Flume模块包括Event、Channel和Sink，用于实时收集并接收海量Wifi探针数据；Flume模块首先将日志化的加密探针数据建模抽象化成Event单元，利用Channel的队列功能将Event单元队列化并简单缓存，Sink随后取出Channel中数据并实时传递给Kafka模块；其中，Flume模块启动2个Agent，Channel中单次取Event的最大参数transactionCapacity设置为50000，内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000，Sink中单次取Event的最大参数batchSize设置为50000；所述Kafka模块包括Producer、Consumer和Topic，用于实时写入或读出数据；在写入数据阶段，Producer接收Flume模块传递的数据，将数据按照协议数据和用户数据进行分类并传递给Topic，Topic或者通过下一跳的Flume模块将数据实时传递给HDFS模块进行文件式存储，或者将数据传递给Spark模块进行数据实时解析；在数据读出阶段，Consumer订阅接收Topic传递的数据，并将数据进一步传递给Presto用以数据消费；其中，最大消息大小设置为10MB，数据消费默认超时时间设置为100ms；所述HDFS模块包括NameNode、DataNode和JournalNode，用于分布式存储海量探针数据并提供高吞吐量的数据访问；NameNode接收Flume模块传递的数据，对数据进行分块化处理并将数据存储至DataNode，NameNode对DataNode进行管理并提供其与数据块之间的映射关系，JournalNode对整个数据存储访问过程的成功与否进行监督；其中，HDFS文件块大小设置为128MB，每个文件块配置2块文件副本；所述Spark模块用于实现基于内存的分布式计算，对探针数据进行解析、分析计算；其中，对于数据实时解析、分析计算的情况，运行1个Spark任务，并为其配置3GB内存空间和2个CPU核；对于数据离线解析、分析计算的情况，运行20个Spark任务，并为其配置12GB内存空间和4个CPU核；所述Hive模块包括HiveServer、MetaStore和DBService，用于提供大数据平台批处理
计算能力，通过Spark模块实现对海量探针数据的实时/离线数据解析、分析计算；对于实时性要求较高的情况，对Kafka模块实时接收的数据进行数据解析、分析计算，具体方式为，HiveServer首先响应任务并通过MetaStore和DBService对Kafka模块接收的数据进行存取，生成Spark任务并提交给Spark模块进行数据解析、分析计算，将结果存入Hive模块的分布式数据库表；对于实时性要求不高的情况，对HDFS模块中已存储的文件进行离线数据解析、分析计算，具体方式为，HiveServer首先响应任务并通过MetaStore和DBService对HDFS模块中相应的数据进行存取，生成Spark任务并提交给Spark模块进行数据解析、分析计算，将结果存入Hive模块的分布式数据库表；其中，根据采集的探针数据特点，建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储，进一步提升数据查询、检索的效率；所述Presto模块包括Client、Coordinator、Metastore和Worker，用于大数据级别分布式的查询引擎；业务应用子系统通过Client下发查询请求，Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息，最后将任务信息和存储信息统一提交给Worker执行查询任务；查询结果放入内存并由业务应用...

【专利技术属性】
技术研发人员：戎凯旋，牛景昌，张策，徐会斌，朱晓岚，张书敬，邓星魁，薛梦天，侯风茂，
申请(专利权)人：成都博纳神梭科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人