当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于移动轨迹信息的用户行为模式画像的方法技术

技术编号:19783529 阅读:38 留言:0更新日期:2018-12-15 12:57
本发明专利技术公开了一种基于移动轨迹信息的用户行为模式画像的方法,通过分析目标对象的移动轨迹信息,使用一种再聚类的方法挖掘用户移动轨迹停留点、停留区域以及停留时长。对多噪且密集的移动点进行系统采样,再通过采样后的移动点计算相邻停留区域之间的转移平均速度和转移速度的波动指数,进而分析用户转移的交通方式。另外,基于停留点的挖取,以天为周期,采用类Apriori算法挖掘用户频繁周期模式,应用高德地图API对用户轨迹的频繁周期模式中出现的地理区域进行语义相关,最终实现了用户生活模式和转移交通方式的分析与可视化表达。

【技术实现步骤摘要】
一种基于移动轨迹信息的用户行为模式画像的方法
本专利技术属于数据处理
,涉及一种用户画像构建方法,具体涉及一种基于移动轨迹信息的用户行为模式画像的方法。技术背景随着大数据时代的到来,个人每天都会产生大量的数据,应用这些数据,分析用户的特征属性,建立完整的用户画像,为预防犯罪、事后取证、嫌疑人身份锁定等诸如此类的社会公共安全问题提供了有效的支持技术。而传统的用户画像构建方法,主要通过分析社交网站注册账号个人信息数据和各类文本数据以及人物图像数据等,来构造性别、年龄、身高、职业、用户情感、政治倾向、经济状况、兴趣爱好等基本特征属性。用户的出行方式、空间运动行为模式以及活动规律对人物画像具有重要作用,然而,受数据对象内容的限制,传统的用户画像构建方法对于用户系统的生活模式、出行交通方式等生活特征,很难做出有效的分析。截止到2013年,苹果应用商店有超过6400个位置相关的应用,Android应用商店有超过1000个位置相关应用,并且这个数字截止至今一直在增长。地理位置相关的社会网络服务也越来越被人们所关注,依据用户的地理位置为用户提供基于用户地理位置的服务(LBS)便是一个典型应用,与此同时,用户所携带的手持设备由于服务的需求被动的生成了一系列GPS定位信息和网络服务基站信息(如基站ID,基站坐标、时间信息等)内容,针对这些移动轨迹信息数据的挖掘,使得分析、理解用户多方面的行为模式、生活模式成为可能。虽然当前也有少量移动用户画像构建方面的研究,但主要是针对网络服务基站信息数据的分析,其优点是能够比较方便的获取数据,对于频繁模式的挖掘也可直接依托基站位置确立停留区域,不必通过距离计算就能判断同一区域。众所周知,目前的基站定位技术精度很低,这使得语义化位置信息分析生活模式时会产生很大的偏差,并且由于这个精度问题使得精准计算停留区域之间的转移速度也有很大难度。由于GPS定位可以提供更高的定位精度,为此,本专利技术开拓性地提出了一种基于移动轨迹信息的用户行为模式画像的方法。
技术实现思路
本专利技术把GPS轨迹信息数据作为分析对象,采用再聚类的方法聚类停留点和移动点,使用系统采样移动点、逐点累加相邻采样点之间的距离的方法计算两个相邻停留区域之间的转移平均速度,使得计算得到的停留区域实际位置和转移速度更为精确,降低了语义化位置信息分析用户生活模式的偏差。本专利技术所采用的技术方案是:一种基于移动轨迹信息的用户行为模式画像的方法,其特征在于,包括以下步骤:步骤1:对目标每天的移动轨迹数据按空间距离和时间跨度进行聚类,分别挖掘出停留点和移动点;步骤2:对步骤1中得到的每类停留点,求平均坐标,得到以平均坐标为中心的停留区域;步骤3:对聚类得到的每两个相邻停留区域之间的移动点进行系统采样;步骤4:根据采样点逐点计算目标对象每两个停留区域之间的移动距离,移动距离与起始移动点的时间差的比值,即为两个相邻停留区域之间的转移平均速度;步骤5:根据步骤3中的采样点计算两个停留区域之间的转移速度的波动指数;步骤6:对步骤2得到的每天的停留区域,以天为周期,采用类apriori算法挖掘目标对象的周期频繁停留区域;步骤7:利用高德地图API对步骤6挖掘的周期频繁停留区域进行语义相关;步骤8:构造目标对象移动轨迹语义信息表,画出移动轨迹模式图;步骤9:结合步骤8中的图、表,分析目标对象的某一天的生活模式、转移交通方式以及某一段时间内的周期生活模式和活动区域范围。与现有的用户画像构建方案相比,本专利技术具有以下优点和积极效果:(1)与传统文本图像类用户画像构建方法相比,本专利技术提供的移动用户画像构建方法,能够较为系统地分析出用户生活模式和停留区域之间的转移交通方式等特征属性。(2)与分析基站网络服务信息相比,本专利技术分析GPS定位信息,具有数据量小,挖掘的生活模式更为精确的优势;(3)本专利技术基于再聚类方法聚类停留点,能够减少噪点干扰,防止停留区域重复计算,对移动点系统采样后再计算的转移平均速度,具有更高的精确度。附图说明图1:本专利技术实施例的流程图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。请见图1,本专利技术提供的一种基于移动轨迹信息的用户行为模式画像的方法,包括以下步骤:步骤1:对目标每天的移动轨迹数据按空间距离和时间跨度进行聚类,分别挖掘出停留点和移动点;将用户一天的轨迹用一个以时间为顺序的时空坐标序列T={pm=(xm,ym,tm)|m=1,2…N}表示,其中,xm表示该点的经度坐标,ym表示该点的纬度坐标,tm表示记录该点的时刻,m表示第m个点,N表示该用户某一天轨迹点的总数;假设每个点pm都是停留点,若对于任意点pi到pj的子序列{pi…pj}中的点与pi的距离都小于预设值M米,且pi与pj的时间差大于预设值L分钟,则{pi…pj}组成的区域即是一个以pi为中心、半径为M米的停留区域,不属于任何停留区域的点被定义为移动点;对中间无移动点的相邻停留区域,采取再聚类策略,即把两个中心距离小于M米的停留区域合并为一个停留区域。本实施例中,M取值100,L取值20;步骤2:对步骤1中得到的每类停留点,求平均坐标,得到以平均坐标为中心的停留区域;平均坐标定义为一个二维空间点的经、纬度坐标:其中,xi,yi分别表示轨迹点pi的经度和纬度,nk表示第k个停留区域停留点的数量。步骤3:对聚类得到的每两个相邻停留区域之间的移动点进行系统采样;步骤4:根据采样点逐点计算目标对象每两个停留区域之间的移动距离,移动距离与起始移动点的时间差的比值,即为两个相邻停留区域之间的转移平均速度;相邻停留区域R1到R2的转移距离定义为所有相邻移动点之间的距离累加的和,转移速度定义为R1到R2的转移距离的平均速度,计算公式为:其中,pi表示相邻停留区域R1到R2之间的移动点,m表示R1到R2之间的移动点的数量,dis(pi,pi+1)表示相邻移动点pi与pi+1的实际地理距离,Δt表示R1到R2的转移时间,是起始移动点的时间差值,即Δt=tm-t1。步骤5:根据步骤3中的采样点计算两个停留区域之间的转移速度的波动指数;相邻停留区域R1到R2的转移速度的波动指数被定义为转移速度的均方差计算公式为:其中,vi,i+1表示相邻点pi、pi+1之间的平均速度,m表示相邻停留区域R1到R2之间移动点的个数,dis(pi,pi+1)表示相邻移动点pi与pi+1的实际地理距离,ti表示pi点的时间值,由步骤4的公式计算给出。转移速度的波动系数越小,说明出行过程交通越顺利,相反的,若其值越大,则说明出行过程有交通阻塞情况。步骤6:对步骤2得到的每天的停留区域,以天为周期,采用类apriori算法挖掘目标对象的周期频繁停留区域;这里采用的是一种与apriori算法相似的算法,其具体如下。输入:用户每天的停留区域序列All_stay_regions输出:频繁停留区域序列(1)设置k=1和最小支持度min_support。(2)扫描停留区域序列All_stay_regions,获取长度为k的子序列并统计子序列的支持频率(对于扫描的每一天的结果,支持频率或者加1或者加0本文档来自技高网
...

【技术保护点】
1.一种基于移动轨迹信息的用户行为模式画像的方法,其特征在于,包括以下步骤:步骤1:对目标每天的移动轨迹数据按空间距离和时间跨度进行聚类,分别挖掘出停留点和移动点;步骤2:对步骤1中得到的每类停留点,求平均坐标,得到以平均坐标为中心的停留区域;步骤3:对聚类得到的每两个相邻停留区域之间的移动点进行系统采样;步骤4:根据采样点逐点计算目标对象每两个停留区域之间的移动距离,移动距离与起始移动点的时间差的比值,即为两个相邻停留区域之间的转移平均速度;步骤5:根据步骤3中的采样点计算两个停留区域之间的转移速度的波动指数;步骤6:对步骤2得到的每天的停留区域,以天为周期,采用类apriori算法挖掘目标对象的周期频繁停留区域;步骤7:对步骤6挖掘的周期频繁停留区域进行语义相关;步骤8:构造目标对象移动轨迹语义信息表,画出移动轨迹模式图;步骤9:结合步骤8中的图、表,分析目标对象某一天的生活模式、转移交通方式以及某一段时间内的周期生活模式和活动区域范围。

【技术特征摘要】
1.一种基于移动轨迹信息的用户行为模式画像的方法,其特征在于,包括以下步骤:步骤1:对目标每天的移动轨迹数据按空间距离和时间跨度进行聚类,分别挖掘出停留点和移动点;步骤2:对步骤1中得到的每类停留点,求平均坐标,得到以平均坐标为中心的停留区域;步骤3:对聚类得到的每两个相邻停留区域之间的移动点进行系统采样;步骤4:根据采样点逐点计算目标对象每两个停留区域之间的移动距离,移动距离与起始移动点的时间差的比值,即为两个相邻停留区域之间的转移平均速度;步骤5:根据步骤3中的采样点计算两个停留区域之间的转移速度的波动指数;步骤6:对步骤2得到的每天的停留区域,以天为周期,采用类apriori算法挖掘目标对象的周期频繁停留区域;步骤7:对步骤6挖掘的周期频繁停留区域进行语义相关;步骤8:构造目标对象移动轨迹语义信息表,画出移动轨迹模式图;步骤9:结合步骤8中的图、表,分析目标对象某一天的生活模式、转移交通方式以及某一段时间内的周期生活模式和活动区域范围。2.根据权利要求1所述的基于移动轨迹信息的用户行为模式画像的方法,其特征在于,步骤1的具体实现过程是:将用户一天的轨迹用一个以时间为顺序的时空坐标序列T={pm=(xm,ym,tm)|m=1,2…N}表示,其中,xm表示该点的经度坐标,ym表示该点的纬度坐标,tm表示记录该点的时刻,m表示第m个点,N表示该用户某一天轨迹点的总数;假设每个点pm都是停留点,若对于任意点pi到pj的子序列{pi…pj}中的点与pi的距离都小于预设值M米,且pi与pj的时间差大于预设值L分钟,则{pi…pj}组成的区域即是一个以pi为中心、半径为M米的停留区域,不属于任何停留区域的点被定义为移动点;对中间无移动点的相邻停留区域,采取再聚类策略,即把两个中心距离小于M米的停留区域合并为一个停留区域。3.根据权利要求1所述的基于移动轨迹信息的用户行为模式画像的方法,其特征在于,步骤2中所述平均坐标的计算,采用如下方法:将平均坐标定义为一个二维空间点的经、纬度坐标:其中,xi,yi分别表示轨迹点pi的经度和纬度,nk表示第k个停留区域停留点的数量。4.根据权利要求1所述的基于移动轨迹信息的用户行为模式画像的方法,其特征在于,步骤4中所述相邻停留区域之间的转移平均速度的计算,采用如下方法:相邻停留区域R1到R2的转移距离定义为所有相邻移动点之间的距离累加的和,平均转移速度定义为R1到R2的转移距离的平均速度,计算公式为:其中,pi表示相邻停留区域R1到R2之间的移动点,dis(pi,pi+...

【专利技术属性】
技术研发人员:王中元祁梦军何政邵振峰
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1