一种基于WiFi扫描记录的用户轨迹提取方法技术

技术编号:26771225 阅读:18 留言:0更新日期:2020-12-18 23:51
本发明专利技术公开了一种基于WiFi扫描记录的用户轨迹提取方法,包括如下步骤:以天为单位过滤不足以刻画用户移动行为的数据;根据数据在时间上的密集情况合并数据;通过计算WiFi扫描记录中每一种MAC地址组合的频繁度,过滤WiFi扫描记录中的噪声数据,获得多个由MAC地址组成的位置指纹作为访问地点;根据位置指纹从访问地点中聚类得到活动地点;根据位置指纹的相似度将用户每一时刻的WiFi扫描记录映射到对应的活动地点并生成轨迹片段;过滤短暂停留的轨迹片段;生成含有语义信息的用户轨迹。该方法能够提取含有语义信息的用户轨迹,可以有效满足如挖掘用户移动模式、用户作息规律等需求,同时,基于该方法提取的活动地点均为逻辑地点,有效保护了用户的隐私安全。

【技术实现步骤摘要】
一种基于WiFi扫描记录的用户轨迹提取方法
本专利技术涉及一种用户轨迹提取方法,特别涉及一种基于WiFi扫描记录的用户轨迹提取方法。
技术介绍
智能终端及定位技术的迅猛发展极大的推动了基于位置服务应用的普及,如今,用户是很多企业提供服务的核心基础,通过分析用户的位置变化可以对用户行为进行描述,对于优化用户推荐系统、提升企业的服务质量、助力智慧城市布局等方面有着重大意义,考虑到用户的日常移动轨迹中包含了用户在时间与空间上的信息,与用户的日常行为有着密切关联,对于用户轨迹的研究一直受到学者们的关注。随着科技的不断进步,用户对基于位置服务的需求越来越多元化,但目前大部分研究都是基于GPS数据挖掘用户轨迹,本专利技术提供了一种从WiFi扫描记录中提取用户轨迹的方法,通过合并数据降低不固定数据采集频率带来的影响,通过提取访问地点有效降低了噪声数据的数量,通过过滤短暂停留的轨迹片段显著减少了轨迹中的临时活动地点,提取了含有语义信息的用户轨迹,为挖掘用户移动模式、用户作息规律等需求提供了支持。
技术实现思路
本专利技术的目的在于提供一种基于WiFi扫描记录的用户轨迹提取方法,顺应当下智慧城市广泛部署WiFi的趋势,从大量WiFi数据中提取出用户信息以描述用户行为。该方法不仅可以帮助企业及时发掘用户的潜在需求并提供个性化的信息服务从而提高用户体验,同时,该方法也可以面向城市管理需求,为“智慧城市”的布局规划、公共资源分配提供支持。本专利技术的目的通过以下的技术方案实现:一种基于WiFi扫描记录的用户轨迹提取方法,该方法包括以下步骤:步骤S10,以天为单位过滤不足以刻画用户移动行为的数据;步骤S20,根据数据在时间上的密集情况合并数据;步骤S30,通过计算WiFi扫描记录中每一种MAC地址组合的频繁度,过滤WiFi扫描记录中的噪声数据,获得多个由MAC地址组成的位置指纹作为访问地点;步骤S40,根据位置指纹从访问地点中进一步聚类得到活动地点;步骤S50,根据位置指纹的相似度将用户每一时刻的WiFi扫描记录映射到对应的活动地点并生成轨迹片段;步骤S60,过滤短暂停留的轨迹片段;步骤S70,语义化活动地点并生成含有语义信息的用户轨迹。进一步地,所述步骤S10进一步包括:步骤S11,将用户每天的数据映射到对应的24小时中;步骤S12,过滤当天所记录的小时数量不足一定阈值的天数;步骤S13,过滤用户当天数据量不足一定阈值的天数。进一步地,所述步骤S20进一步包括:步骤S21,为了避免某段时间上过于密集的数据对后续频繁度计算的影响,根据需要确定一个合适的时间阈值;步骤S22,根据时间阈值合并数据,即若多条时间上相邻的数据记录间隔小于该时间阈值,则将多条数据的时间与位置指纹合并为一个时间与位置指纹。进一步地,所述步骤S30进一步包括:步骤S31,WiFi扫描记录表示为集合W={w1,w2,...,w|W|},其中,wi=(Ai,ti)表示一条时间为ti,位置指纹为Ai的数据,其中位置指纹Ai={m1,m2,...,mk}是一个由多个AP的MAC地址组成的集合;对于用户WiFi扫描记录中的每一种位置指纹Ai,任意两个MAC地址(aj,ak)都可以计算一个支持度sj,k,通过计算得到一个由个支持度形成的分布,其中|Ai|表示Ai中MAC地址的数量,支持度的大小表示了这两个MAC地址在集合W中出现的频繁程度:其中,c(aj,ak)代表集合W中同时含有aj,ak两个MAC地址的位置指纹数量,c(aj)代表集合W中含有aj这个MAC地址的位置指纹数量,min{·}表示选择最小值,sj,k∈[0,1];步骤S32,对用户WiFi扫描记录中的每一种位置指纹Ai计算频繁度f:其中,和分别为步骤S31中分布的均值和方差,频繁度f越大则表明这种位置指纹在集合W中出现概率越高且其中的MAC地址组合越稳定;步骤S33,将集合W中所有的记录按照频繁度f大小降序排列,同时建立一个新的集合WF用于之后存放访问地点的位置指纹Ai,另外,定义Δ为集合W中含有的所有不重复的MAC地址,ΔF为集合WF中含有的所有不重复的MAC地址;步骤S34,按照从上到下的顺序扫描集合W中的位置指纹Ai,若当前Ai加入集合WF后可以增加ΔF的元素(即当前Ai含有集合WF中没有的MAC地址)则将当前Ai加入集合WF,当集合WF中包含了集合W中的所有MAC地址后(即ΔF=Δ)停止向集合WF中添加Ai,此时集合WF中包含的所有Ai便是提取的访问地点的位置指纹。进一步地,所述步骤S40进一步包括:步骤S41,通过Jaccard相似度计算任意两个访问地点位置指纹的相似度γp,q:其中,N(p,q)表示两个位置指纹中共有的MAC地址数量,表示属于位置指纹p但不属于位置指纹q的MAC地址数量,表示不属于位置指纹p但属于位置指纹q的MAC地址数量;步骤S42,建立一个无向权重图G=(V,E),每一个访问地点代表一个顶点vp,任意两个顶点之间边ep,q的权重为这两点之间的相似度γp,q,定义一个相似度临界值θγ,并保留相似度γp,q大于等于临界值θγ的边,得到图然后建立图的邻接矩阵其p行q列的值对应着大于等于临界值的权重ep,q;步骤S43,计算图中每一个顶点的度dp,并将所有顶点V按度dp的大小降序排列,然后从高到低扫描顶点:对于每一个顶点vp,如果该顶点还没有被归类,则将它作为新的类的中心,按照邻接矩阵扩展与该点有权重的邻接点,直到所有的顶点都已归类,得到候选聚类CC;步骤S44,将步骤S43中得到的同一个候选聚类中的访问地点的位置指纹合并,形成新的位置指纹,并计算两两之间的相似度δp,q:其中,N(p,q)表示两个位置指纹中共有的MAC地址数量,N(p)表示位置指纹p中MAC地址的数量;步骤S45,参考步骤S42再次建立基于相似度δp,q的无向权重图定义另一个相似度临界值θδ并建立邻接矩阵参考步骤S43得出最终聚类集合CF;步骤S46,将聚类集合CF中同一类的多个位置指纹合并,每一个合并后的位置指纹代表了一个活动地点。进一步地,所述步骤S50进一步包括:步骤S51,根据位置指纹计算用户每一条WiFi扫描记录与所有活动地点之间的Jaccard相似度,将相似度最高的活动地点作为该条WiFi扫描记录的发生地点,即用ri=(ti,pi)表示每一条WiFi扫描记录,其中ti表示扫描时间,pi表示活动地点的代号;步骤S52,按时间顺序对用户的所有WiFi扫描记录进行排序,若任意m条连续的记录满足pi=pi+1=…=pi+m-1,则将m条记录合并为一个轨迹片段tr=(tstar,tend,pi),其中tstar表示ti,tend表示ti+m-1。进一步地,所述步骤S60进一步包括:步骤S61,定义一个合适的时间阈值ωt;步本文档来自技高网...

【技术保护点】
1.一种基于WiFi扫描记录的用户轨迹提取方法,其特征在于,包括以下步骤:/n步骤S10,以天为单位过滤不足以刻画用户移动行为的数据;/n步骤S20,根据数据在时间上的密集情况合并数据;/n步骤S30,通过计算WiFi扫描记录中每一种MAC地址组合的频繁度,过滤WiFi扫描记录中的噪声数据,获得多个由MAC地址组成的位置指纹作为访问地点;/n步骤S40,根据位置指纹从访问地点中进一步聚类得到活动地点;/n步骤S50,根据位置指纹的相似度将用户每一时刻的WiFi扫描记录映射到对应的活动地点并生成轨迹片段;/n步骤S60,过滤短暂停留的轨迹片段;/n步骤S70,语义化活动地点并生成含有语义信息的用户轨迹。/n

【技术特征摘要】
1.一种基于WiFi扫描记录的用户轨迹提取方法,其特征在于,包括以下步骤:
步骤S10,以天为单位过滤不足以刻画用户移动行为的数据;
步骤S20,根据数据在时间上的密集情况合并数据;
步骤S30,通过计算WiFi扫描记录中每一种MAC地址组合的频繁度,过滤WiFi扫描记录中的噪声数据,获得多个由MAC地址组成的位置指纹作为访问地点;
步骤S40,根据位置指纹从访问地点中进一步聚类得到活动地点;
步骤S50,根据位置指纹的相似度将用户每一时刻的WiFi扫描记录映射到对应的活动地点并生成轨迹片段;
步骤S60,过滤短暂停留的轨迹片段;
步骤S70,语义化活动地点并生成含有语义信息的用户轨迹。


2.根据权利要求1所述的一种基于WiFi扫描记录的用户轨迹提取方法,其特征在于,所述步骤S10进一步包括:
步骤S11,将用户每天的数据映射到对应的24小时中;
步骤S12,过滤当天所记录的小时数量不足一定阈值的天数;
步骤S13,过滤用户当天数据量不足一定阈值的天数。


3.根据权利要求1所述的一种基于WiFi扫描记录的用户轨迹提取方法,其特征在于,所述步骤S20进一步包括:
步骤S21,为了避免某段时间上过于密集的数据对后续频繁度计算的影响,根据需要确定时间阈值;
步骤S22,根据时间阈值合并数据,即若多条时间上相邻的数据记录间隔小于该时间阈值,则将多条数据的时间与位置指纹合并为一个时间与位置指纹。


4.根据权利要求1所述的一种基于WiFi扫描记录的用户轨迹提取方法,其特征在于,所述步骤S30进一步包括:
步骤S31,WiFi扫描记录表示为集合W={w1,w2,...,w|W|},其中,wi=(Ai,ti)表示一条时间为ti,位置指纹为Ai的数据,其中位置指纹Ai={m1,m2,...,mk}是一个由多个AP的MAC地址组成的集合;对于用户WiFi扫描记录中的每一种位置指纹Ai,任意两个MAC地址(aj,ak)都可以计算一个支持度sj,k,通过计算得到一个由个支持度形成的分布,其中|Ai|表示Ai中MAC地址的数量,支持度的大小表示了这两个MAC地址在集合W中出现的频繁程度:



其中,c(aj,ak)代表集合W中同时含有aj,ak两个MAC地址的位置指纹数量,c(aj)代表集合W中含有aj这个MAC地址的位置指纹数量,min{·}表示选择最小值,sj,k∈[0,1];
步骤S32,对用户WiFi扫描记录中的每一种位置指纹Ai计算频繁度f:



其中,和分别为步骤S31中分布的均值和方差,频繁度f越大则表明这种位置指纹在集合W中出现概率越高且其中的MAC地址组合越稳定;
步骤S33,将集合W中所有的记录按照频繁度f大小降序排列,同时建立一个新的集合WF用于之后存放访问地点的位置指纹Ai,另外,定义Δ为集合W中含有的所有不重复的MAC地址,ΔF为集合WF中含有的所有不重复的MAC地址;
步骤S34,按照从上到下的顺序扫描集合W中的位置指纹Ai,若当前Ai加入集合WF后可以增加ΔF的元素(即当前Ai含有集合WF中没有的MAC地址)则将当前Ai加入集合WF,当集合WF中包含了集合W中的所有MAC地址后(即ΔF=Δ)停止向集合WF中添加Ai,此时集合WF中包含的所有Ai便是提取的访问地点的位置指纹。


5.根据权利要求1所述的一种基于WiFi扫描记录的用户轨迹提取方法,其特征在于,所述步骤S40进一步包括:
步骤S41,通过Jaccard相似度计算任意两...

【专利技术属性】
技术研发人员:陈积明郑行言李超贺诗波方毅
申请(专利权)人:浙江云合数据科技有限责任公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1