一种基于R*树索引的时空轨迹聚集模式挖掘算法制造技术

技术编号:20160395 阅读:19 留言:0更新日期:2019-01-19 00:13
本发明专利技术涉及一种基于R*树索引的时空轨迹聚集模式挖掘算法,包括轨迹压缩,轨迹聚类和聚集检测三个步骤。该算法综合利用轨迹数据的运动方向、运动速度和偏移信息来压缩轨迹,提高算法压缩的效果;使用基于R*树索引的线段DBSCAN对轨迹段聚类,提高算法聚类的效率。相关实验表明该算法相比同类算法挖掘效果有所提高。接下来的工作就是将此算法运用于实际的轨迹数据聚集模式挖掘任务中,提高数据挖掘的效果。

【技术实现步骤摘要】
一种基于R*树索引的时空轨迹聚集模式挖掘算法
本专利技术涉及数据挖掘领域,主要对时空轨迹聚集模式挖掘算法Crowd-TAD(Crowd-TestandDivide)进行改进,以提高聚集模式挖掘算法的准确性和效率,具体涉及一种基于R*树索引的时空轨迹聚集模式挖掘算法。
技术介绍
时空轨迹模式挖掘是指从移动对象的运动轨迹中发现有用的行为规律来获取有价值的信息。其中时空轨迹聚集模式挖掘主要挖掘出在一定空间范围内持续一段时间的密集的移动对象群体,广泛应用于流量预测和交通线路规划等方面。时空轨迹聚集模式的特点可以根据以下因素进行区分:移动群组的形状或者密度、群组中的对象数以及移动持续的时间。随着研究的深入,时空轨迹聚集模式的定义也越来越符合实际场景。在这些聚集模式中,Gathering模式是目前最新定义的聚集模式,该模式定义中的限定比较宽泛,适用于城市计算、流量预测等多种应用场景。Gathering模式的挖掘方法分为三种,分别是基于网格的挖掘算法、基于R树的挖掘算法和基于时空图的挖掘算法。基于网格索引的聚集判断算法原理是在每个时间点建立网格索引遍历聚簇集合,得出需要进行距离计算的聚簇集合,减少计算量,缺点是索引效率受划分粒度影响。基于R树索引的聚集判断算法原理是在计算聚簇间的距离时,在每个时间点建立R树索引存储聚簇最小外包矩形,利用R树的窗口查询进行剪枝,减少聚簇间的距离计算,缺点是R树实现复杂,边界矩形不一定近似聚簇形状。基于时空图的聚集判断算法原理是根据轨迹聚类信息建立时空图,根据时空图进行聚集判断,缺点是时间复杂度高,当数据量增长过快时,时空图规模大,挖掘算法效率降低。针对时空轨迹聚集模式挖掘的研究还存在以下问题:一是现有的挖掘算法中没有考虑移动对象的运动方向属性,不能准确地反映移动对象的动态特征;二是针对轨迹聚类过程时间复杂度高,运行时间长,目前没有一个最优的聚类方案。针对以上问题,本专利技术在深入研究时空轨迹聚集模式挖掘算法的基础上,提出一种基于R*树索引的聚集模式挖掘算法,在轨迹预处理阶段,提取轨迹的运动方向、运动速度和偏移信息综合表示轨迹,进行轨迹压缩;在聚类阶段,对轨迹按照时间区间分成轨迹段,使用基于R*树索引的线段DBSCAN进行轨迹聚类。相关实验表明本方法相比已有算法,在保证挖掘算法准确性的基础上具有更高的挖掘效率。
技术实现思路
本专利技术主要采用以下技术手段实现:一种基于R*树索引的时空轨迹聚集模式挖掘算法,其特征在于,包括:步骤1、对轨迹进行预处理,包括提取轨迹特征并对提取的轨迹特征进行关键点判断,得到压缩后轨迹;步骤2、对步骤1得到的压缩后轨迹进行轨迹聚类,首先进行时间片划分,然后对于每个时间片创建一颗R*树,最后对每个时间片内的所有轨迹段进行聚类;步骤3、对步骤2已经聚类后的轨迹进行聚集判断,首先经过群体判断确定群体数量,并经过聚集判断确定群体中的参与者,完成最终的聚集集合。在上述的一种基于R*树索引的时空轨迹聚集模式挖掘算法,所述步骤1具体包括:步骤1.1、轨迹特征提取,具体是采用轨迹的移动方向、移动速度和偏移信息三类特征来描述轨迹;对于轨迹点序列t={(x1,y1),(x2,y2),...,(xn,yn)},(xi,yi)为轨迹点的坐标,t中元素个数为轨迹数据所包含的轨迹点个数;第i次采样时移动对象的运动方向计算如下:第i次采样时移动对象运动方向的变化值的计算如下:Δ(θi-θi-1)=min{|θi-θi-1|,2π-|θi-θi-1|}第i次采样时移动对象的运动速度为相邻两轨迹点的连线长度与时间间隔的比值,其速度变化值的计算为相邻点的速度之差;Pi-1(xi-1,yi-1),Pi(xi,yi),Pi+1(xi+1,yi+1)为原始轨迹上3个连续的轨迹点,若压缩后的轨迹为Pi-1Pi+1的连线,轨迹点Pi(xi,yi)在该线段上按时间比例的投影位置为P′i(x′i,y′i),则第i次采样时移动对象的偏移距离即Pi(xi,yi)到P′i(x′i,y′i)的SED距离计算如下:其中步骤1.2、关键点判断,得到压缩后轨迹,定义轨迹集合Tr={P1,P2,…,Pt},方向改变阈值θα,速度改变阈值θν,偏移距离阈值θd,针对轨迹集合Tr中的每一个轨迹点,依次计算Δdir、Δsp、Δd,并进行判断:若Δdir、Δsp、Δd满足任意条件:Δdir>θα或者Δsp>θν或者Δd>θd,将Pi加入压缩后轨迹STr,判断Tr中的下一个轨迹点;否则,直接判断Tr中的下一个轨迹点。在上述的一种基于R*树索引的时空轨迹聚集模式挖掘算法,所述步骤2具体包括:步骤2.1、进行时间片划分,具体是将时间域表示为T=<t1,t2,…,tn>,然后设置时间间隔长度λ值,将整个时间域划分成相同时间间隔的时间区间S=<τ1,τ2,...,τt>;步骤2.2、创建R*树,具体是对于每个时间片创建一颗R*树,叶子节点存储轨迹段的最小外包矩形信息,非叶子节点含有指向下一级节点的指针,包含到下一级节点的最小外包矩形的条目信息;步骤2.3、聚类轨迹段,对每个时间片内的所有轨迹段进行聚类操作,具体是遍历所有轨迹段,判断当前轨迹段oi是否为核心轨迹段;通过R*树的窗口查询,找出当前轨迹段的所有近邻轨迹段;R*树的窗口指的是轨迹段oi的扩大到聚簇半径距离阈值∈的最小外包矩形;如果叶子节点中的轨迹段与窗口相交,则与窗口相交的轨迹段是轨迹段oi的近邻,判断这些轨迹段的密度,若其密度超过邻域密度阈值,说明轨迹段oi是核心轨迹段,将该轨迹段加入候选聚簇;对轨迹段oi的邻域内的轨迹段依次判断是否为核心对象,直到所有轨迹段均已被访问,最终获得带有类别标签的聚簇集合。在上述的一种基于R*树索引的时空轨迹聚集模式挖掘算法,所述步骤3具体包括:步骤3.1、群体判断:在每个时间点从当前聚簇集合中检测最后一个聚簇,判断能否通过继续增加聚簇来扩展成更大的群体,具体是将前一时刻的群体中最后一个簇与当前时刻所有聚簇进行距离判断,并根据判断结果执行:执行一、若当前时刻聚簇中有一个距离小于阈值δ的聚簇,将其加入群体;执行二、若有多个距离小于阈值δ的聚簇,复制前一时刻群体为多个,将这些符合条件的聚簇分别加入每个群体;执行三、若说明没有距离小于阈值δ的聚簇,说明前一时刻的群体已经闭合,不能再扩展;步骤3.2、聚集判断:计算群体中每个对象出现次数,1A)、判断每个对象是否为一个参与者,若是,则标记,否则不标记;2A)、统计群体中每个聚簇包含的参与者个数,3A)、判断是否满足设定参与者数目阈值,若符合阈值条件则执行步骤4A),否则到5A)4A)、判断群体生存周期是否满足设定阈值;5A)、对于没有足够参与者的聚簇,删除这些聚簇,并以这些聚簇为界将群体分成多个子序列,对于每个仍然为群体的子序列,重复对这些群体进行聚集判断,直到所有群体都被遍历完成。因此,本专利技术具有如下优点:本专利技术综合利用轨迹数据的运动方向、运动速度和偏移信息来压缩轨迹,提高算法压缩的效果;使用基于R*树索引的线段DBSCAN对轨迹段聚类,提高算法聚类的效率。相关实验表明该算法相比同类算法挖掘效果有所提高。接下来的本文档来自技高网
...

【技术保护点】
1.一种基于R*树索引的时空轨迹聚集模式挖掘算法,其特征在于,包括:步骤1、对轨迹进行预处理,包括提取轨迹特征并对提取的轨迹特征进行关键点判断,得到压缩后轨迹;步骤2、对步骤1得到的压缩后轨迹进行轨迹聚类,首先进行时间片划分,然后对于每个时间片创建一颗R*树,最后对每个时间片内的所有轨迹段进行聚类;步骤3、对步骤2已经聚类后的轨迹进行聚集判断,首先经过群体判断确定群体数量,并经过聚集判断确定群体中的参与者,完成最终的聚集集合。

【技术特征摘要】
1.一种基于R*树索引的时空轨迹聚集模式挖掘算法,其特征在于,包括:步骤1、对轨迹进行预处理,包括提取轨迹特征并对提取的轨迹特征进行关键点判断,得到压缩后轨迹;步骤2、对步骤1得到的压缩后轨迹进行轨迹聚类,首先进行时间片划分,然后对于每个时间片创建一颗R*树,最后对每个时间片内的所有轨迹段进行聚类;步骤3、对步骤2已经聚类后的轨迹进行聚集判断,首先经过群体判断确定群体数量,并经过聚集判断确定群体中的参与者,完成最终的聚集集合。2.根据权利要求1所述的一种基于R*树索引的时空轨迹聚集模式挖掘算法,其特征在于,所述步骤1具体包括:步骤1.1、轨迹特征提取,具体是采用轨迹的移动方向、移动速度和偏移信息三类特征来描述轨迹;对于轨迹点序列t={(x1,y1),(x2,y2),...,(xn,yn)},(xi,yi)为轨迹点的坐标,t中元素个数为轨迹数据所包含的轨迹点个数;第i次采样时移动对象的运动方向计算如下:第i次采样时移动对象运动方向的变化值的计算如下:Δ(θi-θi-1)=min{|θi-θi-1|,2π-|θi-θi-1|}第i次采样时移动对象的运动速度为相邻两轨迹点的连线长度与时间间隔的比值,其速度变化值的计算为相邻点的速度之差;Pi-1(xi-1,yi-1),Pi(xi,yi),Pi+1(xi+1,yi+1)为原始轨迹上3个连续的轨迹点,若压缩后的轨迹为Pi-1Pi+1的连线,轨迹点Pi(xi,yi)在该线段上按时间比例的投影位置为P′i(x′i,y′i),则第i次采样时移动对象的偏移距离即Pi(xi,yi)到P′i(x′i,y′i)的SED距离计算如下:其中步骤1.2、关键点判断,得到压缩后轨迹,定义轨迹集合Tr={P1,P2,…,Pt},方向改变阈值θα,速度改变阈值θν,偏移距离阈值θd,针对轨迹集合Tr中的每一个轨迹点,依次计算Δdir、Δsp、Δd,并进行判断:若Δdir、Δsp、Δd满足任意条件:Δdir>θα或者Δsp>θν或者Δd>θd,将Pi加入压缩后轨迹STr,判断Tr中的下一个轨迹点;否则,直接判断Tr中的下一个轨迹点。3.根据权利要求1所述的一种基于R*树索引的时空轨迹聚集模式挖掘算法,其特征在于,...

【专利技术属性】
技术研发人员:林泓卢瑶瑶张杨忆夏恬恬
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1