一种ID时空轨迹匹配方法及装置制造方法及图纸

技术编号:24574831 阅读:34 留言:0更新日期:2020-06-21 00:13
本发明专利技术提供了一种ID时空轨迹匹配方法及装置,该方法包括:通过采集器采集不同类型的第一ID数据和第二ID数据;将所述数据记录按相同采集地点和日期进行分组,将所述数据记录按相同数据类型分组并转换为哈希表;在所述哈希表中遍历各地点日期组,对于同一地点日期组,如果两条数据记录采集时间区间相同或相邻,则保存为预选的ID配对;遍历各预选的ID配对,对于每个预选的ID配对,从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据,并按时间顺序分别合并两组轨迹数据;计算两组轨迹相似度,将轨迹相似度高于阈值的预选ID配对确定为匹配。

An ID space-time trajectory matching method and device

【技术实现步骤摘要】
一种ID时空轨迹匹配方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种ID时空轨迹匹配方法及装置。
技术介绍
随着各种信息采集技术的快速发展,在多个固定地点可以采集到周边的多种大规模ID数据,如车牌号、手机IMSI、手机MAC地址等。通过多地大量部署采集器,可以得到相同ID在多个采集器部署地点间的时空轨迹(定点轨迹)。轨迹数据是轨迹点的序列,轨迹点是ID在某一采集器旁出现的记录,它由采集器的编号和ID的出现时间戳组成,每个采集器对应一组经纬度坐标。通过衡量不同种类的ID的定点轨迹相似度,可以设定相似度阈值以判别多种ID是否属于同一人。这对于建立个人ID数据库有很大帮助。现有轨迹相似度衡量方法主要分为空间相似度(SpatialSimilaritV)衡量方法和时空相似度(Spatio-TemporalSimilarity)衡量方法。其中空间相似度衡量方法完全不考虑轨迹点出现的时序,因此无法被使用于匹配定点轨迹。时空相似度则考虑了轨迹点出现的时序。具有代表性的时空相似度衡量是动态时间规整(DynamicTimeWraping,DTW)距离,它通过在不调换轨迹点次序的情况下任意拉伸/压缩时间尺度来匹配距离最短的轨迹点,最终求得两个轨迹的距离。然而,该法并不利用轨迹的时间戳信息。除DTW以外,不利用轨迹的时间戳信息的衡量还有实补偿编辑距离(EditdistancewithRealPenalty,ERP)、实序列编辑距离(EditDistanceonRealSequence,EDR)、最长公共子序列(LongestCommonSubsequences,LCSS)等。很少有衡量利用时间戳信息,知识范围内只有时间规整编辑距离(TimeWrapEditDistance,TWED)它将匹配两条轨迹所需拉伸/压缩时间尺度的量也作为轨迹相似度的参考。然而,定点轨迹数据与常见的轨迹数据(即GPS/AP/基站定位轨迹)有很大的区别。常见的轨迹数据的数据量大,有地点噪音,相邻记录时间等间隔或接近等间隔。而定点轨迹单个ID数据量稀少,不存在地点噪音,同时相邻记录时间差从几秒到几小时不等,记录时间本身也有较大的误差。而且判别多种ID是否属于同一人所需要的衡量标准和普通的相似度衡量标准也有很大的区别,这导致在根据定点轨迹匹配ID的任务中,现有的相似度衡量方法表现不佳。
技术实现思路
本专利技术实施例提供了一种ID时空轨迹匹配方法及装置,以至少解决相关技术中在定点轨迹匹配ID的任务中,现有的相似度衡量方法表现不佳的问题。根据本专利技术的一个实施例,提供了一种ID时空轨迹匹配方法,包括:通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据,其中,所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳;将所述数据记录按相同采集地点和日期进行分组,以及将所述数据记录按相同数据类型分组,并转换为哈希表;在所述哈希表中遍历各地点日期组,对于同一地点日期组,如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻,则将所述第一ID数据和所述第二ID数据保存为预选的ID配对;遍历各预选的ID配对,对于每个预选的ID配对,从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据,并按时间顺序分别合并两组轨迹数据;计算两组轨迹相似度,将轨迹相似度高于阈值的预选ID配对确定为匹配。可选地,在遍历各预选的ID配对之前,还可包括:删除重复保存的所述预选的ID配对。可选地,从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据之后,还可包括:判断所述两组轨迹的所有数据是否来源于同一个采集器,如果是,则不计算该两组轨迹的相似度。可选地,计算两组轨迹相似度之前,还可包括:遍历两组轨迹数据,将时间间隔短于μt,距离间隔短于μd的轨迹点合并,仅保留首个轨迹点,其中,μt为采集器的时间延迟误差范围,μd为该时间范围内行人可能触发的两个采集器的最大距离。可选地,计算两组轨迹相似度包括:根据采集器经纬度信息,计算出每两个采集器位置间的大圆距离并储存为哈希表;根据两点相似度函数计算两组轨迹相似度。根据本专利技术的另一个实施例,提供了一种ID时空轨迹匹配装置,包括:采集模块,用于通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据,其中,所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳;分组模块,用于将所述数据记录按相同采集地点和日期进行分组,以及将所述数据记录按相同数据类型分组,并转换为哈希表;第一遍历模块,用于在所述哈希表中遍历各地点日期组,对于同一地点日期组,如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻,则将所述第一ID数据和所述第二ID数据保存为预选的ID配对;轨迹模块,用于遍历各预选的ID配对,对于每个预选的ID配对,从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据,并按时间顺序合并两组轨迹数据;确定模块,计算两组轨迹相似度,将轨迹相似度高于阈值的预选ID配对确定为匹配。可选地,所述装置还可包括:删除模块,用于在遍历各预选的ID配对之前,删除重复保存的预选的ID配对。可选地,所述装置还包括:判断模块,在获取第一ID数据和第二ID数据对应的轨迹数据之后,判断所述两组轨迹的所有数据是否来源于同一个采集器,如果是,则不计算该两组轨迹的相似度。可选地,所述装置还包括:第二遍历模块,用于在计算两组轨迹相似度之前,遍历两组轨迹数据,将时间间隔短于μt,距离间隔短于μd的轨迹点合并,只保留首个轨迹点,其中,μt为采集器的时间延迟误差范围,μd为该时间范围内行人可能触发的两个采集器的最大距离。可选地,确定模块还可包括:第一计算单元,用于根据采集器经纬度信息,计算出每两个采集器位置间的大圆距离并储存为哈希表;第二计算单元,用于根据两点相似度函数计算两组轨迹相似度。根据本专利技术的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术上述实施例的步骤,解决了相关技术中在定点轨迹匹配ID的任务中,现有的相似度衡量方法表现不佳的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的ID时空轨迹匹配方法流程图。图2是根据本专利技术实施例的针对在多个固定地点采集的ID时空轨迹的匹配方法流程图;图3是根据本专利技术实施例的ID数据记录示意图;图4是根据本专利技术实施例的两个ID对应的轨迹数据示意图;图5是根据本专利技术实施例的两组ID轨迹数据本文档来自技高网
...

【技术保护点】
1.一种ID时空轨迹匹配方法,其特征在于,包括:/n通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据,其中,所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳;/n将所述数据记录按相同采集地点和日期进行分组,以及将所述数据记录按相同数据类型分组,并转换为哈希表;/n在所述哈希表中遍历各地点日期组,对于同一地点日期组,如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻,则将所述第一ID数据和所述第二ID数据保存为预选的ID配对;/n遍历各预选的ID配对,对于每个预选的ID配对,从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据,并按时间顺序分别合并两组轨迹数据;/n计算两组轨迹相似度,将轨迹相似度高于阈值的预选ID配对确定为匹配。/n

【技术特征摘要】
1.一种ID时空轨迹匹配方法,其特征在于,包括:
通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据,其中,所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳;
将所述数据记录按相同采集地点和日期进行分组,以及将所述数据记录按相同数据类型分组,并转换为哈希表;
在所述哈希表中遍历各地点日期组,对于同一地点日期组,如果第一ID数据和第二ID数据的两条数据记录采集时间区间相同或相邻,则将所述第一ID数据和所述第二ID数据保存为预选的ID配对;
遍历各预选的ID配对,对于每个预选的ID配对,从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据,并按时间顺序分别合并两组轨迹数据;
计算两组轨迹相似度,将轨迹相似度高于阈值的预选ID配对确定为匹配。


2.根据权利要求1所述的方法,其特征在于,遍历各预选的ID配对之前,还包括:
删除重复保存的所述预选的ID配对。


3.根据权利要求1所述的方法,其特征在于,从所述哈希表中分别获取第一ID数据和第二ID数据对应的轨迹数据之后,还包括:
判断所述两组轨迹的所有数据是否来源于同一个采集器,如果是,则不计算该两组轨迹的相似度。


4.根据权利要求1所述的方法,其特征在于,计算两组轨迹相似度之前,还包括:
遍历两组轨迹数据,将时间间隔短于μt,距离间隔短于μd的轨迹点合并,仅保留首个轨迹点,其中,μt为采集器的时间延迟误差范围,μd为该时间范围内行人可能触发的两个采集器的最大距离。


5.根据权利要求1所述的方法,其特征在于,计算两组轨迹相似度包括:
根据采集器经纬度信息,计算出每两个采集器位置间的大圆距离并储存为哈希表;
根据两点相似度函数计算两组轨迹相似度。


6.一种ID时空轨迹匹配装置,其特征在于,包括:
采集模块,用于通过布置在各地的采集器采集不同类型的第一ID数据和第二ID数据,其中,所述第一ID数据和第二ID数据的每条数据记录中包括数据类型、采集器位置编号和采集时间戳;<...

【专利技术属性】
技术研发人员:梁秀钦周紫昊林晓明罗华刚周广一王俊威李迪民陈栋齐云飞
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1