一种WIFI环境下手机位置信息提取方法技术

技术编号:31323287 阅读:13 留言:0更新日期:2021-12-13 00:11
本发明专利技术公开了一种WIFI环境下手机位置信息提取方法,包括以下步骤:1、从手机WIFI流量产生的IP分组中过滤出HTTP数据;2、采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎;3、通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表;4、将列表中的手机位置信息统一转换成GPS格式;5、计算每个手机位置信息出现的次数,输出次数最多的位置信息;本发明专利技术可以减轻后续数据处理的压力,利用高速匹配引擎按照预先设定的正则规则中提取位置信息,实现从海量数据中高效提取位置信息的效果,且对实时数据流的影响极小。且对实时数据流的影响极小。且对实时数据流的影响极小。

【技术实现步骤摘要】
一种WIFI环境下手机位置信息提取方法


[0001]本专利技术属于深度包解析
,尤其涉及一种WIFI环境下手机位置信息提取方法。

技术介绍

[0002]信息是大数据时代的主角,在这些海量信息中,80%的信息与位置信息(Location Based Service,LBS)相关。LBS是指采用无线通信网络、GIS、无线定位、空间数据库等多种相关技术,为用户提供的一种基于空间位置的移动信息服务;它通过获得移动用户的空间位置信息,为用户提供诸如位置搜寻、交通导航、目标广告、车辆跟踪、社交网络、移动网游、安全监护等众多个性化的服务。
[0003]空间媒体数据是指与空间位置相关的文本、图片、音视频等自媒体平台数据,主要来源于BBS、微博、博客、微信、QQ 等移动社交网络,具有数据体量大、数据来源广、数据差异性大、数据非结构化、数据价值密度低、数据实时性与交互性强等特点。空间媒体数据中包含大量的用户位置数据信息,从网络流量中提取位置信息,利用这些位置信息与数据进行有效的挖掘与分析,使之成为对大型突发事件预警有用的情报信息,从而为应急指挥部署提供辅助性的决策和预案。
[0004]目前通常采用全文检索的方法来在海量应用数据中提取位置信息,这种方式检索缓慢、效率底下,且支持的位置信息格式单一。

技术实现思路

[0005]专利技术目的:本专利技术的目的在于提供一种效率高、适用范围广的WIFI环境下手机位置信息提取方法。
[0006]技术方案:本专利技术的WIFI环境下手机位置信息提取方法,包括以下步骤:步骤1、从手机WIFI流量产生的IP分组中过滤出HTTP数据;步骤2、采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎;步骤3、通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表;步骤4、将列表中的手机位置信息统一转换成GPS格式;步骤5、计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;进一步地,步骤1中,所述滤出HTTP数据为仅保留GET和POST请求数据。
[0007]进一步地,步骤2中,所述正则表达式匹配库为PCRE和Hyperscan匹配库等标准匹配库。
[0008]进一步地,步骤4中,所述GPS格式包括GIS、搜狗、谷歌三种形式的位置信息。
[0009]进一步地,所述步骤5具体包括:计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;如果有多种位置信息频次一样,且频次排名首位,则增加IP分组数量,
直至频次最高的位置信息唯一转换后的GPS位置信息格式为[lon,lat],其中lon是经度数值,lat是纬度数值。
[0010]有益效果:与现有技术相比,本专利技术具有如下显著优点:(1)本专利技术从HTTP流量中过滤出GET和POST请求,减轻后续数据处理的压力,并利用Hyperscan高速匹配引擎按照预先设定的正则规则中提取位置信息,解决了现有技术提取位置信息效率低下的问题,实现从海量数据中高效提取位置信息的效果,且对实时数据流的影响极小。
[0011](2)从HTTP流量中提取到更多更全面的位置信息,包括GIS、搜狗、谷歌三种形式的位置信息,极大地降低了单一格式提取的情况下可能出现的误提取的情况。
附图说明
[0012]图1为本专利技术的工作流程图。
具体实施方式
[0013]下面结合附图对本专利技术的技术方案作进一步说明。
[0014]如图1所示,本专利技术的手机位置信息提取方法,先对IP分组进行过滤,仅保留GET和POST请求数据。利用Hyperscan高速匹配引擎读取事先形成的位置信息正则规则,从HTTP数据中提取可能存在的GIS、搜狗、谷歌形式的位置信息。将提取到的位置信息进行转换成统一的GIS位置信息格式,对转换后的GIS位置信息进行排序并输出排名首位的GIS位置信息。
[0015]具体实施步骤如下:(1)从手机WIFI流量产生的IP分组中过滤出HTTP数据,仅过滤出请求方法为POST和GET的HTTP数据;(2)通过对事先采集的网络流量数据包分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用Hyperscan匹配技术形成位置信息提取引擎;利用Wireshark软件采集手机联网产生的网络流量;找出网络流量中经度、纬度信息,针对GPS、搜狗、谷歌形式的位置信息分别编写正则表达式规则;利用Hyperscan编译器对正则表达式编译,得到GPS、搜歌、谷歌位置信息提取引擎;利用Hyperscan扫描引擎对HTTP数据中的位置信息进行提取;(3)通过Hyperscan位置信息提取引擎对HTTP数据进行高效快速扫描,匹配得到手机位置信息列表,Hyperscan位置信息提取引擎采用流模式匹配;(4)将列表中的手机位置信息统一转换成GPS格式,如果位置信息格式为GPS则无需转换,如果位置信息格式为搜狗位置信息格式则将其转换成GPS格式,如果位置信息格式为谷歌位置信息格式则将其转换成GPS格式;(5)计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;如果有多种位置信息频次一样,且频次排名首位,则增加IP分组数量,直至频次最高的位置信息唯一转换后的GPS位置信息格式为[lon,lat],其中lon是经度数值,lat是纬度数值。
[0016]实施例补充具体的实施例,具体的操作过程、数据、图表、手机位置信息等。
[0017]如图1所示,本实例中一种WIFI环境下手机位置信息提取方法,首先通过用户手机
WIFI流量产生的IP分组中过滤出HTTP数据,使用Hyperscan或者PCRE匹配技术(若数据量太大则优先使用Hyperscan匹配技术)对HTTP数据进行分析,得到其手机的GPS、搜狗和谷歌等软件显示的位置信息。具体流程如下:步骤1:读取手机WIFI流量产生的IP分组从手机WIFI流量产生的IP分组中过滤出GET和POST请求数据。
[0018]步骤2:采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎匹配的数据库为事先采集的网络流量数据包分析归纳形成的正则表示式数据库。
[0019]步骤3:通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表对GET和POST请求数据进行分析归纳,形成位置信息格式的正则表达式,利用Hyperscan匹配技术对该正则表达式进行匹配步骤4:将列表中的手机位置信息统一转换成GPS格式将匹配到的正则表达式数据还原成GPS信息,如果手机开通GPS权限,则直接返回GPS信息。如果手机未开通GPS权限,则对搜狗和谷歌重复步骤1,3得到位置信息并将其转换成GPS信息返回。
[0020]步骤5:计算每个手机位置信息出现的次数,输出出现次数最多的位置信息;多次获取手机的GPS信息,根据GPS地址出现最多的地址即为手机所在的位置。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种WIFI环境下手机位置信息提取方法,其特征在于,包括以下步骤:步骤1、从手机WIFI流量产生的IP分组中过滤出HTTP数据;步骤2、采集网络流量数据包并分析归纳,形成位置信息格式的正则表达式描述形式;基于位置信息正则表达式,利用正则表达式匹配库形成位置信息提取引擎;步骤3、通过位置信息提取引擎对HTTP数据进行扫描,匹配得到手机位置信息列表;步骤4、将列表中的手机位置信息统一转换成GPS格式;步骤5、计算每个手机位置信息出现的次数,输出出现次数最多的位置信息。2.根据权利要求1所述的WIFI环境下手机位置信息提取方法,其特征在于,步骤1中,所述滤出HTTP数据为仅保留GET和POST请求数据。3.根据权...

【专利技术属性】
技术研发人员:刘光杰王金伟张秀再王健
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1