一种基于序列相似度的车辆轨迹压缩方法技术

技术编号:21800013 阅读:28 留言:0更新日期:2019-08-07 10:43
本发明专利技术公开了一种基于序列相似度的车辆轨迹压缩方法。本方法为:1)将单位时间内同一标识ID的车辆的轨迹合成为一条长轨迹;该长轨迹为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,第n次采集的信息包括位置ln、时间信息tn,记为采集点(ln,tn);2)根据设定的速度阈值对该长轨迹进行切割,得到多条分段轨迹;3)基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩。本发明专利技术大大节约了存储开销。

A Vehicle Trajectory Compression Method Based on Sequence Similarity

【技术实现步骤摘要】
一种基于序列相似度的车辆轨迹压缩方法
本专利技术涉及数据挖掘领域,提出了一种基于序列相似度匹配的车辆轨迹压缩方法,通过压缩含有相似子序列的轨迹来减小存储开销。
技术介绍
车辆轨迹数据中蕴含的轨迹信息具有重要的理论和应用价值。随着社会经济技术水平的飞速发展,车辆的数量日益增多,出于记录车辆的违规行为等目的,已在众多道路交通路口安置采集车辆信息的摄像头。其中,记录的常用信息有汽车车牌、此摄像头的具体地理位置编号以及采集数据的时间。独一无二的汽车车牌作为汽车的标识,摄像头的具体位置编号可作为被采集汽车的地理位置,采集时间是时间戳的格式,基于众多采集摄像头的数据以及采集时间的先后顺序可以构建出任一汽车的车辆的轨迹。由于车辆以及摄像头数目众多,通过摄像头采集数据整合后的车辆轨迹量极大,而且由于整合方案仅基于时间先后拼接地理位置编号作为整条汽车轨迹,使得轨迹出现大量冗余。为了减少车辆轨迹数据的存储空间,提高数据传输和数据分析速度,需要将长串的轨迹进行压缩。
技术实现思路
基于此现状,本专利技术为了实现将可能含有重复路线及冗余落脚点的车辆轨迹进行压缩,得到在可接受误差情况下可代替的车辆轨迹,本专利技术提出了一种基于子串相似度匹配的车辆轨迹压缩方法。本专利技术主要包含两个方面:(1)首先将原始轨迹基于城市道路机动车速度阈值进行切割为多个真实轨迹,并基于序列相似度匹配采取聚类打分选取突出轨迹代表多条相似轨迹。(2)为了解决初步压缩后的轨迹仍可能包含重复子轨迹,提出基于始发点子序列相似度匹配算法筛选出最优子序列作为此轨迹的压缩值。本专利技术的技术方案为:一种基于序列相似度的车辆轨迹压缩方法,其步骤包括:1)将单位时间内同一标识ID的车辆的轨迹合成为一条长轨迹;该长轨迹为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,第n次采集的信息包括位置ln、时间信息tn,记为采集点(ln,tn);2)根据设定的速度阈值对该长轨迹进行切割,得到多条分段轨迹;3)基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩。进一步的,步骤2)的切割方法为:根据该长轨迹中的两相邻采集时间的采集点(li,ti)、(li+1,ti+1)信息计算该车辆的速度如果则判定该车辆前一段轨迹的终点为li,下一段轨迹的起点为li+1;否则两采集点(li,ti)、(li+1,ti+1)为同一分段轨迹;其中,为设定的速度阈值。进一步的,如果且两相邻采集时间的采集点(li+1,ti+1)、(li+2,ti+2)的速度则丢弃采集点(li+1,ti+1),将(li+2,ti+2)作为下一段轨迹的起点。进一步的,每一路段设置一对应的速度阈值,为路段li~li+1的速度阈值,为路段li+1~li+2的速度阈值,如果且则丢弃采集点(li+1,ti+1),将(li+2,ti+2)作为下一段轨迹的起点。进一步的,基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩的方法为:11)基于分段轨迹的序列相似度对分段轨迹进行聚类,得到若干聚类簇;根据每一聚类簇中的分段轨迹个数确定该聚类簇中种子轨迹的得分;12)对于同一聚类簇i中除种子轨迹外的任一分段轨迹m,计算其与不在聚类簇i内的分段轨迹的序列相似度,并根据计算结果确定该分段轨迹m的得分;13)从每一聚类簇内选取一得分最高的分段轨迹作为此对应类轨迹的代表,完成全局压缩。进一步的,所述序列相似度的计算方法为:设轨迹a是含有Na个采集点的序列,轨迹b是含有Nb个采集点的序列,采用LCSs算法计算出两个轨迹中有Nsame个相同落脚点,则轨迹a与轨迹b的序列相似度进一步的,所述步骤11)的实现方法为:将各分段轨迹的得分初始化为0,随机选取一条分段轨迹作为种子轨迹,计算种子轨迹与其他分段轨迹的序列相似度,如果序列相似度不低于设定阈值,则将其与当前种子轨迹聚为一类,并且将当前种子轨迹的得分加1;如果没有与其序列相似度大于阈值的分段轨迹,则将当前种子轨迹作为独立轨迹保存。进一步的,对步骤3)压缩后的轨迹进行局部轨迹压缩,其方法为:首先对全局压缩后保留的每一条环形轨迹和起始点相同的分段轨迹进行切割;然后基于分段轨迹的序列相似度对分段轨迹进行聚类,得到若干聚类簇;根据每一聚类簇中的分段轨迹个数确定该聚类簇中种子轨迹的得分;对于同一聚类簇j中除种子轨迹外的任一分段轨迹k,计算其与不在聚类簇i内的分段轨迹的序列相似度,并根据计算结果确定该分段轨迹k的得分;从每一聚类簇内选取一得分最高的分段轨迹作为此对应类轨迹的代表,完成局部轨迹压缩。进一步的,所述单位时间为一个月、一周或一天。进一步的,所述标识ID为车辆的车牌。与现有技术相比,本专利技术的积极效果为:数据集为国内某城市的某区域的道路交通口的摄像头采集的实际汽车数据。一个月的轨迹数据有788910条,存储开销为1.26G。根据全局压缩可以得到大约有30%为独立轨迹,其余轨迹存在大量的相似序列并可全局压缩,经过全局压缩后存储开销减少为0.87G;再次进行局部轨迹压缩,发现有大约40%的轨迹存在内部轨迹序列相似的情况,此情况多为公交车或公司班车等,局部压缩后所需存储开销仅为0.68G。整体上,存储开销减少了46%。附图说明图1是轨迹压缩示意图;图2是基于LCSs算法计算两轨迹匹配的采集点数目的示意图;图3是基于序列相似度聚类的轮流选拔制度示意图;图4是具体轨迹压缩流程图。具体实施方式下面结合附图1、2、3、4对本专利技术的技术方案做进一步的详细说明。本专利技术的轨迹压缩包括以下四个步骤,如图1所示:(一)城市道路机动车速度阈值的设定。同一车牌的车辆轨迹可以按一定的单位时间来合成一个长轨迹,并处理存储,比如按照每个月来进行轨迹的存储。于是每辆汽车每个月的轨迹可以表示为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,ID是汽车唯一标识(此处为车牌),此集合包括所有采集点的位置及时间信息,其中采集时间为独一无二的Key,但很可能会出现的情况是不同时间点对应着相同的位置,即li=lk,(1≤i≠k≤n)。由于监控系统采集的位置信息是基于实际经纬度获得的,于是可以通过计算两个采集点的距离与采集时间差的比值来求解估计速度并根据城市道路限定速度以及实际城市路况寻求速度阈值v。此阈值速度可以简单地根据监控设备采集的实时车速来设定,阈值速度只需由此路段的测速监控设备提供即可,因为所有的监控设备获取汽车速度是不现实的。(二)基于速度阈值切割轨迹,并得到多条分段轨迹。假设在时刻ti与ti+1计算的估计速度小于速度阈值,即则原因认定为机动车在此时间段内停车(注:不同路段的轨迹压缩时的速度阈值可能不同,具体数据由具体路段内的测速监控设备获得),由于此时间段内没有其他摄像记录,则不妨设定车辆前一段轨迹的终点为li,下一段轨迹的起点为li+1。基于此规则,假设上一段起点是li-k,则此段轨迹为(li-k,ti-k)→(li-k+1,ti-k+1)…→(li,ti);同理,下一段的轨迹始于li+1,但是还需要考虑一种情况,下一采集点与li+1之间的速度也满足于上述速度限制那么就丢弃(li+1,ti+1)(此处的(li+1,ti+1)被视为冗余的落脚点,因为单点不足以构成轨迹),将第本文档来自技高网...

【技术保护点】
1.一种基于序列相似度的车辆轨迹压缩方法,其步骤包括:1)将单位时间内同一标识ID的车辆的轨迹合成为一条长轨迹;该长轨迹为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,第n次采集的信息包括位置ln、时间信息tn,记为采集点(ln,tn);2)根据设定的速度阈值对该长轨迹进行切割,得到多条分段轨迹;3)基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩。

【技术特征摘要】
1.一种基于序列相似度的车辆轨迹压缩方法,其步骤包括:1)将单位时间内同一标识ID的车辆的轨迹合成为一条长轨迹;该长轨迹为TrajectoryID={(l1,t1),(l2,t2),…,(ln,tn)},其中,第n次采集的信息包括位置ln、时间信息tn,记为采集点(ln,tn);2)根据设定的速度阈值对该长轨迹进行切割,得到多条分段轨迹;3)基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩。2.如权利要求1所述的方法,其特征在于,步骤2)的切割方法为:根据该长轨迹中的两相邻采集时间的采集点(li,ti)、(li+1,ti+1)信息计算该车辆的速度如果则判定该车辆前一段轨迹的终点为li,下一段轨迹的起点为li+1;否则两采集点(li,ti)、(li+1,ti+1)为同一分段轨迹;其中,为设定的速度阈值。3.如权利要求2所述的方法,其特征在于,如果且两相邻采集时间的采集点(li+1,ti+1)、(li+2,ti+2)的速度则丢弃采集点(li+1,ti+1),将(li+2,ti+2)作为下一段轨迹的起点。4.如权利要求3所述的方法,其特征在于,每一路段设置一对应的速度阈值,为路段li~li+1的速度阈值,为路段li+1~li+2的速度阈值,如果且则丢弃采集点(li+1,ti+1),将(li+2,ti+2)作为下一段轨迹的起点。5.如权利要求1所述的方法,其特征在于,基于分段轨迹之间的序列相似度,对该长轨迹进行全局轨迹压缩的方法为:11)基于分段轨迹的序列相似度对分段轨迹进行聚类,得到若干聚类簇;根据每一聚类簇中的分段轨迹个数确定该聚类簇中种子轨迹的得分;12)对于同一聚类簇...

【专利技术属性】
技术研发人员:张鹏邢丽超梁棋周美林刘萍谭建龙
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1