基于公共分片子序列的轨迹离群点检测方法技术

技术编号:17780394 阅读:53 留言:0更新日期:2018-04-22 09:15
本发明专利技术公开了一种基于公共分片子序列的轨迹离群点检测方法,根据轨迹的方向特征,构建轨迹方向码序列,获取轨迹的分段序列和分片序列;计算轨迹间的CSS距离,根据预设离群轨迹分片和轨迹离群点的度量方法,检测出离群轨迹分片和轨迹离群点。本发明专利技术的优点在于:本发明专利技术设计了轨迹的方向码序列、轨迹的分片特征序列以及轨迹间公共分片子序列的距离,实现了轨迹分片离群点检测和离群轨迹的检测。算法适用于具有时间属性和空间位置属性的时空轨迹数据集,理论分析与实验结果均表明,本发明专利技术是能够准确而有效的检测出轨迹离群点。

【技术实现步骤摘要】
基于公共分片子序列的轨迹离群点检测方法
本专利技术涉及数据挖掘领域,具体地,涉及一种基于公共分片子序列的轨迹离群点检测方法。
技术介绍
随着卫星、移动终端、各种定位技术(GPS、GSM、RFID等)和存储技术的应用与发展,大量移动对象的轨迹数据被搜集和存储,例如车辆运行轨迹、移动用户活动轨迹、飓风轨迹、动物迁徙轨迹数据等。轨迹数据中包含丰富的时空语义信息,共享和发布这些数据可以使分析人员获取有用信息,并应用于智能交通、用户行为分析、城市和道路规划、旅游推荐、天气预测、动物习性研究等多个领域,对这些轨迹数据进行挖掘分析已经成为一个有意义的课题。其中,轨迹离群点检测是最典型的轨迹数据分析手段之一。轨迹离群点检测属于时空数据离群点检测的范畴,广泛应用于恶劣天气预测和智能交通领域。轨迹离群点(也称为离群轨迹)是指基于相似的评价机制,在一定的时间间隔内,空间位置偏离绝大多数轨迹的轨迹,是非常少见的模式,可能表明一个反常的事件,离群轨迹的检测结果可以起到预测和警示作用。同时,离群位置点或离群轨迹的检测和移除对于提高基于相似性聚类的轨迹隐私保护算法的效率很有意义。因此,轨迹离群点检测是本专利技术关注的研究问题。目前,轨迹离群点检测已取得一些研究成果。从处理的基本单元看,可以分为轨迹分段后检测和轨迹整体检测两大类方法。从侧重的研究属性看,可以分为以空间位置属性为主要特征的轨迹离群点检测和以时间属性为主要特征的轨迹离群点检测。其中,轨迹分段后检测较轨迹整体检测的准确率更高。然而,现有离群轨迹检测方法存在很多不足,例如:以整条轨迹作为研究对象的方法,对于子轨迹异常的情形往往无法检测,离群子轨迹的特征可能在整条轨迹中被均化。目前以子轨迹为研究对象的轨迹分段后检测方法则主要强调空间位置特征的重要性,忽视了轨迹时间属性的重要性;另一方面,孤立地考虑轨迹的分段,忽视了轨迹分段之间的连续性特征。现有方法,一般是按照相同采样点的个数对轨迹进行划分,无法反映轨迹的真实特征信息。所以,现有检测算法的性能无法得到保证。本专利技术基于公共分片子序列的模型构建,提出一种更为准确有效的轨迹离群点检测方法。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于公共分片子序列的轨迹离群点检测方法,既考虑到了轨迹的分片效果又突出了轨迹连续分片特征的重要性。具体来说,提出的该方法包含了两个功能,第一个是针对时空轨迹数据集进行建模,获取轨迹的分段和分片特征序列。另外,引入了一种新的基于公开分片子序列CSS的轨迹距离计算方法,用于检测离群的轨迹分片和离群轨迹。为了实现上述目的,本专利技术采用的技术方案为:一种轨迹离群点检测方法,根据轨迹的方向特征,构建轨迹方向码序列,获取轨迹的分段序列和分片序列;计算轨迹间的CSS距离,根据预设离群轨迹分片和轨迹离群点的度量方法,检测出离群轨迹分片和轨迹离群点。具体包括如下步骤,步骤1:轨迹的形式化表示对轨迹数据集进行形式化预处理,生成如下轨迹数据集:T={Tid,(t1,x1,y1),(t2,x2,y2),…,(tn,xn,yn)}其中,Tid表示轨迹的序号,(ti,xi,yi)(1≤i<n)表示第i个位置点的时间和空间位置属性三元组,n是轨迹中位置点的个数;步骤2:对轨迹进行分段,获取轨迹的分段序列轨迹段是指轨迹中相邻位置点形成的线段,轨迹Ti中的轨迹段集合TSegsi可表示为:设因此可得,包含n-1个轨迹段;步骤3:计算轨迹特征序列轨迹段的特征序列为表示Ti中第q个轨迹段的某种特征,对轨迹段特征的分析,评价位置点序列走势,判定位置点的性质;步骤4、获取轨迹分片序列以轨迹走势的方向特征作为压缩轨迹基本处理单元的标准,通过设置合适的同向判定阈值,以压缩准确性和简洁性为目标,获取每条轨迹的分片序列;将轨迹分片作为轨迹新的基本处理单元,每个分片的特征用其所含轨迹段的平均特征加以衡量,构成轨迹Ti的分片序列可表示为:其中,1=p1<p2<…<pz<pz+1=n,设r=1,…,z,表示第i条轨迹Ti的第r个轨迹分片,因此可得,步骤5、获取轨迹间的公共分片子序列CSS,进而计算轨迹间的CSS距离,得到CSS距离数据集采用计算公式计算同方向码轨迹分片间的距离,计算公式为:Slicedt=wloc*Slicedtloc+wplen*SlicedtplenSlicedt表示两个同方向码和轨迹分片之间的距离;Slicedtloc和Slicedtplen分别表示它们之间的位置距离和路径距离,Slicedtloc是两个分片中心点之间的欧氏距离;和分别表示分片和的长度;wloc和wplen分别表示对应距离的权重;和分别表示和的持续时间间隔;然后根据公式计算每一对CSS之间的距离,CSSdt表示CSS之间距离;bi和ei分别表示CSS中第一个同向分片的序号和最后一个同向分片的序号;Slicedtk表示其中第k对同向分片之间的距离;对每条轨迹Ti,查找与其他轨迹Tj的所有公共分片子序列CSS,计算所有的CSS距离,得到CSS距离数据集;步骤6:计算轨迹的CSS邻居计算所有轨迹的CSS邻居以及相应邻居的数目,其中一条轨迹T的CSS邻居指的是TS中与T有公共分片子序列的轨迹;步骤7:基于CSS距离数据集以及轨迹分片离群点和离群轨迹的判定条件,识别出轨迹分片离群点和离群轨迹。判定轨迹分片离群点和离群轨迹的方法为:若一个轨迹分片的邻居数目少于指定阈值α,就被识别为离群轨迹分片,其中,轨迹分片的邻居指的是和它距离小于指定阈值δ的所有轨迹分片;若满足以下条件之一,则轨迹Ti被定义为离群轨迹或轨迹离群点:i)Ti与TS中的任何其它轨迹Tj(j=1…n,j≠i)都没有公共分片子序列;ii)CSS邻居的数目小于指定阈值β;iii)超过CSS距离阈值γ的CSS邻居数目与|TS|的比值大于比例阈值η。采用以方向作为特征的方法为以原点为中心,将平面直角坐标系平均划分成N个区域,每个区域夹角为2π/N,并对应一个唯一方向码,称为N码,根据轨迹段斜率,为每个轨迹段赋予一个N码,将轨迹转换成N码序列。将轨迹分片作为轨迹新的基本处理单元,每个轨迹分片的方向码设置为该分片内所有轨迹段方向码的平均值。本专利技术的优点在于:本专利技术设计了轨迹的方向码序列、轨迹的分片特征序列以及轨迹间公共分片子序列的距离,实现了轨迹分片离群点检测和离群轨迹的检测。算法适用于具有时间属性和空间位置属性的时空轨迹数据集,理论分析与实验结果均表明,本专利技术是能够准确而有效的检测出轨迹离群点。附图说明下面对本专利技术说明书各幅附图表达的内容及图中的标记作简要说明:图1是本专利技术所述方法的执行模块流程图;图2是本专利技术所述方法中,轨迹段和轨迹分片示意图;图3是本专利技术所述方法中,16种方向码所代表的区域;图4是本专利技术所述方法中,轨迹Ti和Tj之间的一对公共分片子序列;图5是本专利技术所述方法中,具有相同方向代码的两个轨迹分片间的距离;图6为本专利技术所述方法基于第一组数据集(Dataset1)的前10条轨迹的分片效果;图7为本专利技术所述方法基于第二组数据集(Dataset2)的前10条轨迹的分片效果;图8为本专利技术所述方法基于第一组数据集(Dataset1)的离群轨迹分本文档来自技高网
...
基于公共分片子序列的轨迹离群点检测方法

【技术保护点】
基于公共分片子序列的轨迹离群点检测方法,其特征在于:根据轨迹的方向特征,构建轨迹方向码序列,获取轨迹的分段序列和分片序列;计算轨迹间的CSS距离,根据预设离群轨迹分片和轨迹离群点的度量方法,检测出离群轨迹分片和轨迹离群点。

【技术特征摘要】
1.基于公共分片子序列的轨迹离群点检测方法,其特征在于:根据轨迹的方向特征,构建轨迹方向码序列,获取轨迹的分段序列和分片序列;计算轨迹间的CSS距离,根据预设离群轨迹分片和轨迹离群点的度量方法,检测出离群轨迹分片和轨迹离群点。2.如权利要求1所述的基于公共分片子序列的轨迹离群点检测方法,其特征在于:包括如下步骤,步骤1:轨迹的形式化表示对轨迹数据集进行形式化预处理,生成如下轨迹数据集:T={Tid,(t1,x1,y1),(t2,x2,y2),…,(tn,xn,yn)}其中,Tid表示轨迹的序号,(ti,xi,yi)(1≤i<n)表示第i个位置点的时间和空间位置属性三元组,n是轨迹中位置点的个数;步骤2:对轨迹进行分段,获取轨迹的分段序列轨迹段是指轨迹中相邻位置点形成的线段,轨迹Ti中的轨迹段集合TSegsi可表示为:设表示第i条轨迹Ti的第q个轨迹段,因此可得,包含n-1个轨迹段;步骤3:计算轨迹特征序列轨迹段的特征序列为表示Ti中第q个轨迹段的方向特征,对轨迹段特征的分析,评价位置点序列走势,判定位置点的性质;步骤4、获取轨迹分片序列以轨迹走势的方向特征作为压缩轨迹基本处理单元的标准,通过设置合适的同向判定阈值,获取每条轨迹的分片序列;将轨迹分片作为轨迹新的基本处理单元,每个分片的特征用其所含轨迹段的平均特征加以衡量,构成轨迹Ti的分片序列可表示为:其中,1=p1<p2<…<pz<pz+1=n,设表示第i条轨迹Ti的第r个轨迹分片,因此可得,步骤5、获取轨迹间的公共分片子序列CSS,进而计算轨迹间的CSS距离,得到CSS距离数据集采用计算公式计算同方向码轨迹分片间的距离,计算公式为:Slicedt=wloc*Slicedtloc+wplen*Slicedtplen

【专利技术属性】
技术研发人员:俞庆英罗永龙陈传明陈付龙汪小寒胡桂银
申请(专利权)人:安徽师范大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1