一种基于加权欧氏距离的移动轨迹相似度匹配方法组成比例

技术编号:14469990 阅读:275 留言:0更新日期:2017-01-21 01:47
一种改进的基于欧式距离的相似度匹配方法,方法包括:获取移动数据,保留包括IMSI、StartTime、LocLng以及LocLat等移动信息;根据IMSI查询得到若干个移动数据,即轨迹点,以采集时的即时时间排序获取原始轨迹;将特定的时间段分为若干个时间区间,轨迹点放置到相应的时间区间内,根据轨迹点停留时间给予权重,加权计算时间区间特征点位置;根据筛选条件不同,赋予相应时间区间以较高权值,进行加权欧式距离相似度计算;将计算得到的欧氏距离排序,取距离最小的5条轨迹,即为相似度最高的行为轨迹。

【技术实现步骤摘要】

本专利技术涉及移动数据分析领域,尤其是针对移动大数据平台下基于移动轨迹数据的相似度匹配方法。
技术介绍
近年来,随着移动通信技术以及传感器技术的发展,移动设备的持有率不断攀升。由附近基站接收到的移动数据可大致标定移动设备的位置以及即时时间。进而,通过查询移动设备的唯一标示符,得到其某段时间内的轨迹数据。由于人类移动轨迹显示出高度的时间以及空间规律性,在大多数情况下,个体会在生活原点附近徘徊,大幅度偏离仅为小概率事件。因其规律性,使得移动轨迹的研究成为可能,其中,移动轨迹的相似度研究已成为热点之一,主要应用于轨迹预测、兴趣点挖掘以及异常轨迹搜索等。目前,每日产生的移动数据数以亿计,因而,对于轨迹相似度匹配算法的效率有比较高的要求,常用的算法为基于距离的相似度比较算法,主要有欧式距离法、最小边界矩形距离法、最长公共子序列法以及编辑距离法等。其中,欧式距离是度量对象间相似度最为通用的方法。该算法通过计算同一维度两个轨迹点的欧氏距离,即可得到两条轨迹间的欧氏距离,具备较高的效率。但是,由于欧氏距离法要求轨迹间以相同的维度表示,并且该方法没有考虑时间的变化,即两条形状相同的轨迹在不同时间内呈现会被认定为相同的。因而,在移动大数据的环境下,亟需提出一种改进的基于欧式距离的相似度匹配方法,以满足日常个体轨迹间相似度计算的需求。
技术实现思路
本专利技术主要解决的技术问题是在移动大数据环境下,针对欧式距离法轨迹间需相同维度以及未考虑时间变化等缺陷,结合其运算效率较高的优势,提出一种基于移动轨迹数据的相似度匹配方法。为解决如上问题,本专利技术采用的技术方案主要是:在移动大数据的环境下,一种改进的基于欧式距离的相似度匹配方法,将所提取的轨迹点进行时间维度上的划分,每个时间段内的特征点进行特征提取,在考虑时间维度以及保留数据特征的情况下,降低相似度比较过程中的数据量。所述的方法包括:步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。步骤2,获取原始轨迹;根据IMSI查询,即可获得特定时间段内该IMSI对应移动设备的若干条移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标(经纬度)以及采样时间t。按照轨迹点的即时时间排序,即可构成个体的运动轨迹。步骤3,分时段特征点采样;以一定的时间区间为单位,将特定时间段划分为若干个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点。在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的位置点(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,按照如下公式计算。wtj=ΔtjtTotal---(1)]]>注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间。由每个位置点的权重wtj,得到可以代表该个体在该时间区间的综合位置,如以下公式所示。rix=Σj=1mLngj·wtj---(2)]]>riy=Σj=1mLatj·wtj---(3)]]>注:rix以及riy表示在该时间区间i内特征点的总位置经纬度,该时间区间内的总轨迹点数为m,Lngj以及Latj在该时间区间内经过位置点j的经纬度。经过以上计算,即可得到特定时间段内轨迹的运动位置情况。步骤4,相似度计算;根据不同的筛选对象,给这些时间区间赋予不同的权值wpi,权值取值范围:1≤wpi≤2。例如,需要筛选家庭成员,则给予夜间时间区间以较高的权值;需要筛选一起工作学习的团体,则给予日间时间区间以较高的权值。选取某个IMSI,作为待匹配对象,得到轨迹R,与库中的各轨迹S进行加权的欧氏距离计算,如下公式所示。E(R,S)=Σi=1ndistance(ri,si)distance(ri,si)=wpi·(rix-six)2+(riy-siy)2---(4)]]>注:R,S分别为两条轨迹,两条轨迹的轨迹点数分别为n,E(R,S)为轨迹R与S间的欧式距离,ri,si分别表示轨迹R与S上第i个轨迹点,rix与riy表示ri的位置坐标,six与siy表示si的位置坐标,wpi为相应时间区间的权值,distance(ri,si)表示ri,si间的欧式距离。步骤5,给出相似度排序表;根据计算得到的欧氏距离,取出距离最小的5条轨迹,作为与之相似度最高的轨迹集。本专利技术的有益效果是:相较于目前的技术情况,本专利技术通过将提取得到的移动数据进行时间维度上的划分,解决了欧氏距离计算中维度相等的需求。在计算单个时间区间的特征点时,通过给定停留时间较长的位置以较大的权值,可在一定程度上获取该时段更精确的位置点,保留了数据特征并且减少了数据量。并且,由于筛选的人群不同,根据筛选条件给定重要的时间区间以较高的权值,有利于筛选轨迹相似的人群。更多地,由于利用改进的欧式距离方法计算移动大数据轨迹相似问题,具备较高的计算效率。附图说明图1是本专利技术移动数据表结构图;图2是本专利技术移动轨迹示意图;图3是本专利技术基于加权欧氏距离的移动轨迹相似度匹配实施例结构框图;图4是本专利技术实施例相似度计算结果图;图5是本专利技术实施例相似度匹配可视化结果图;图6是本专利技术的方法流程图。具体实施方式为了使该
的人员可以更好地理解本专利技术方案,下面结合附图对本专利技术做进一步描述,显然,所描述的实施方式仅仅是本专利技术一部分的实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有做出创新性劳动前提下所获得的所有其他实施方式,都应当属于本专利技术保护的范围。图3为本专利技术利用所述方法实现的一个基于加权欧氏距离的移动轨迹相似度匹配的实施例。该实施例采集2015年2月5日的移动数据共计1.8亿条左右,涉及杭州市内基站2.5万个左右。利用MongoDB数据库实现大数据分析处理,包括移动数据导入模块、轨迹生成模块以及分时段特征点采样模块,结合SpringMVC框架完成数据业务逻辑应用,其中包含相似度匹配以及相似度排序,最终将匹配结果进行可视化。若有相同实质上的结果,则不以图3为限。完成该实施例的流程参照图6,主要包括以下5个步骤:步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,如图1所示。其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置。步骤2,获取原始轨迹;根据IMSI查询,即可获得当天时间段内该IMSI对应移动设备的移动数据,每条移动数据即为该移本文档来自技高网
...

【技术保护点】
一种改进的基于欧式距离的相似度匹配方法,将所提取的轨迹点进行时间维度上的划分,每个时间段内的特征点进行特征提取,在考虑时间维度以及保留数据特征的情况下,降低相似度比较过程中的数据量;所述的方法包括:步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置;步骤2,获取原始轨迹;根据IMSI查询,即可获得特定时间段内该IMSI对应移动设备的若干条移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标以及采样时间t;按照轨迹点的即时时间排序,即可构成个体的运动轨迹;步骤3,分时段特征点采样;以一定的时间区间为单位,将特定时间段划分为若干个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点;在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的位置点(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,按照如下公式计算;wtj=ΔtjtTotal---(1)]]>注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间;由每个位置点的权重wtj,得到可以代表该个体在该时间区间的综合位置,如以下公式所示;rix=Σj=1mLngj·wtj---(2)]]>riy=Σj=1mLatj·wtj---(3)]]>注:rix以及riy表示在该时间区间i内特征点的总位置经纬度,该时间区间内的总轨迹点数为m,Lngj以及Latj在该时间区间内经过位置点j的经纬度;经过以上计算,即可得到特定时间段内轨迹的运动位置情况;步骤4,相似度计算;根据不同的筛选对象,给这些时间区间赋予不同的权值wpi,权值取值范围:1≤wpi≤2;例如,需要筛选家庭成员,则给予夜间时间区间以较高的权值;需要筛选一起工作学习的团体,则给予日间时间区间以较高的权值;选取某个IMSI,作为待匹配对象,得到轨迹R,与库中的各轨迹S进行加权的欧氏距离计算,如下公式所示;E(R,S)=Σi=1ndistance(ri,si)distance(ri,si)=wpi·(rix-six)2+(riy-siy)2---(4)]]>注:R,S分别为两条轨迹,两条轨迹的轨迹点数分别为n,E(R,S)为轨迹R与S间的欧式距离,ri,si分别表示轨迹R与S上第i个轨迹点,rix与riy表示ri的位置坐标,six与siy表示si的位置坐标,wpi为相应时间区间的权值,distance(ri,si)表示ri,si间的欧式距离;步骤5,给出相似度排序表;根据计算得到的欧氏距离,取出距离最小的5条轨迹,作为与之相似度最高的轨迹集。...

【技术特征摘要】
1.一种改进的基于欧式距离的相似度匹配方法,将所提取的轨迹点进行时间维度上的划分,每个时间段内的特征点进行特征提取,在考虑时间维度以及保留数据特征的情况下,降低相似度比较过程中的数据量;所述的方法包括:步骤1,获取移动数据;利用现有移动数据,每条数据均为主基站接收的信号数据,保留包括IMSI、StartTime、LocLng以及LocLat字段作为移动定位过程中的必要信息,其中,IMSI表示个体携带的移动设备的唯一标识符,StartTime为基站接收到移动信号的即时时间,LocLng以及LocLat为接收基站的经纬度,即基站的地理位置;步骤2,获取原始轨迹;根据IMSI查询,即可获得特定时间段内该IMSI对应移动设备的若干条移动数据,每条移动数据即为该移动设备移动轨迹的一个轨迹点,其中,轨迹点信息包括该点的位置坐标以及采样时间t;按照轨迹点的即时时间排序,即可构成个体的运动轨迹;步骤3,分时段特征点采样;以一定的时间区间为单位,将特定时间段划分为若干个时间区间,将采集得到的移动轨迹的轨迹点按照其即时时间,放入每个区间,这样每个时间区间内会有若干按时间排序的轨迹点;在单个时间区间内,通过这些轨迹点的位置坐标可得轨迹经过的位置点(Lngj,Latj),即时时间差可得到个体在某位置点停留的时间Δtj,将位置停留时间作为计算特征点位置的权重条件,按照如下公式计算;wtj=ΔtjtTotal---(1)]]>注:wtj表示位置j在计算特征点时该轨迹点位置的权重,Δtj表示在位置j停留的时间,tTotal表示单个时间区间的总时间;...

【专利技术属性】
技术研发人员:王卫红杨洁陈小柱
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1