一种基于道路网络的时空轨迹聚类方法技术

技术编号:14593593 阅读:75 留言:0更新日期:2017-02-08 22:49
本发明专利技术公开了一种基于道路网络的时空轨迹聚类方法,该方法包括数据采集、时空轨迹表达、时空相似性度量、子轨迹聚类和输出聚类结果步骤。通过轨迹记录设备,采集移动对象的时空轨迹数据,基于线段的轨迹表示建立时空轨迹模型,通过线性插值和语义扩充后输出轨迹文件,并对轨迹文件选取特征点,通过特征点划分子轨迹进行轨迹重构;计算子轨迹间的网络距离,作为时空相似性分析度量依据,并运用标签传播算法实现子轨迹聚类,最后输出聚类结果。本发明专利技术通过对各种时空轨迹数据进行聚类分析,可以提取时空轨迹数据中的相似性与异常特征,并有助于发现其中有意义的轨迹模式。

Spatio temporal trajectory clustering method based on road network

The invention discloses a spatio temporal trajectory clustering method based on a road network, which comprises the steps of data acquisition, spatio temporal trajectory representation, spatio-temporal similarity measurement, sub trajectory clustering and output clustering results. Through the track recording equipment, data acquisition trajectories of moving objects, a spatio-temporal trajectory model that segment based on the trajectory of output trajectory files by linear interpolation and semantic extension, and select the feature points on the trajectory of documents, track reconstruction by feature point sub trajectory; trajectory calculation of the network distance as similarity analysis of the measurement basis, and to achieve the sub trajectory clustering using label propagation algorithm, the final output of the clustering results. Based on the clustering analysis of various spatio-temporal trajectory data, the similarity and abnormal features can be extracted from the spatial and temporal trajectory data, which is helpful to discover the meaningful trajectory patterns.

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,具体是一种基于道路网络的时空轨迹聚类方法。
技术介绍
随着遥感、GPS、无线通讯、智能终端、物联网等技术的发展,人们可以获得大量的时空轨迹数据,通过分析恐怖分子的活动路径来更好的指导反恐活动;通过研究城市中汽车的移动轨迹,对城市道路规划做出改善,以缓解城市拥堵问题;通过对飓风的移动轨迹数据进行研究,找到其移动模式,以便在賜风来临之前做好防灾工作,动物的迁徙轨迹,智能交通管理,生物学领域中精子运动的轨迹和人的笔迹轨迹,化学领域中分子的运动轨迹,体育领域中球员的运动轨迹等等。越来越多的轨迹数据被应用于时间地理学、交通地理学、生态地理学、医学等相关研究,这些轨迹中蕴含着大量有价值的信息与知识。智能交通系统建立了巨大的数据库资源,在这些海量数据中隐含地存在着大量对路径规划有用的知识。例如在交通导航系统中,根据对轨迹的相似性查询技术可以得到历史相似运动轨迹,基于这些得到的知识就可以推荐一组比较合适的行车路线或估计所需要的时间给新手或迷路司机。除此之外,通过轨迹的相似性查询还可以发现频繁发生交通堵塞的区域中大部分车辆的运动模式,根据这些结果可以规划开发一些新的道路或者为出行的车辆提供路况信息等建议。聚类分析作为数据挖掘技术的一项任务,是一种数据预处理过程,是进一步分析和处理数据的基础。基于道路网络空间的移动对象轨迹聚类技术可为路径规划的合理性与最优性提供有力的保障,为用户提供相应的决策支持,轨迹聚类的研究在实际应用中具有重要意义。移动对象的轨迹聚类从其产生至今,就一直受到各界研究人员的关注。采用轨迹聚类方法,通过发现相似的运动轨迹、提取运动特征模式等方式,可以发现移动对象的运动规律和行为模式。时空轨迹是移动对象的位置和时间的记录序列。时空轨迹数据不同于聚类分析中传统数据的数据结构,聚类分析在度量传统数据之间的相似性时,大多考虑的是数据点和数据点之间的相似性,而轨迹是由点的序列构成的,不同轨迹之间的点有的离得非常近有的离得非常远。在考虑轨迹之间的相似性时就不能只考虑点和点之间的相似性了,而要考虑由点构成的线与线之间的相似性。移动对象的时空轨迹聚类算法研究,主要方法目前可分为两类:一类是以整条轨迹为分类对象进行分类,优点在于其在评价轨迹对象之间的相似性方面比较直观,用户输入参数的影响比较小;但缺点是对于复杂的轨迹,此类方法无法分辨出轨迹的局部特征,且对高维度的轨迹数据的聚类效果不好。另一类是将复杂轨迹按照某种标准分割为相对平滑的轨迹段,然后以分割得到的轨迹段为分类对象进行分类,优点在于可以很好地识别轨迹的局部特征,有效地处理高维度的轨迹数据,结合基于密度的聚类方法,能够很好地发现任意形状的轨迹段聚类,但缺点是轨迹分割方法对聚类结果有较大的影响,不少专家学者提出了许多不同的分割方法,适用于不同的应用领域,但领域知识对聚类结果的影响较大。尽管如此,时空轨迹聚类方法仍面临许多困难与挑战,有待进一步研究和解决,主要体现在以下5个方面:(1)当前大部分时空轨迹数据聚类方法仍然是将时间看作原空间对象的附加维,这种处理方式难免使时间与空间有所分隔,与人们对于事物的直观认识有出入;(2)现有聚类方法对于某些轨迹数据类型并不完全适用,例如人口迁移轨迹数据,该类数据的时间维是不等长的,但是由于具有年龄的语义,时间维不能拉伸,这种情况目前还没有很好的方法可以处理;(3)聚类结果在转换成知识的过程中存在一些问题,例如所发现的知识或者过于简单,近乎于常识,或者过于复杂,让人们无法直观理解;(4)海量的轨迹数据的不断产生,一方面为研究者提供了丰富的数据源,但另一方面,也要求研究者从中选择有效的数据并提高算法效率;(5)在处理与人有关的时空轨迹时,如何保护对象的隐私等也成为研究者应当考虑的问题。本专利技术采用标签传播算法进行轨迹聚类,并结合道路网络应用领域,在局部算法上进行突破和改进,并从总体上提出了一种基于道路网络的时空轨迹聚方法。目前大多数空间聚类算法,主要针对几何空间数据对象,而在交通领域,空间对象的访问受限于道路网络,很多兴趣点之间的路网距离和欧式距离差别很大。因此,在交通领域,研究基于路网拓扑的聚类分析算法,更具有应用价值。常见的聚类算法采用欧氏距离对数据对象的相似度进行度量,通常发现的是一些密度和大小比较接近的球状的或圆状的聚类。但在现实世界中聚类不只是球状或圆状,可以是任意形状,因此设计能够发现任意形状聚类的算法具有非常重要的现实意义。标签传播算法(LPA)可以通过相近节点之间的标签的传递来学习分类,它不受数据分布形状的局限,可以克服一些算法只能发现“类圆形”结构的缺点。只要同一类的数据在空间分布上是相近的,那么不管数据分布是什么形状,都能通过标签传播将它们分到同一个类里。同时由于hansdorffdistance依赖于参数ε,而且在使用欧几里得距离删减流量簇和计算hausdorff邻域这两个过程中都使用到了ε,所以最终聚类结果的好坏与参数的选择密切相关,然而参数的确定往往依靠经验或专家知识,显然不利于用户的使用,同时也使得聚类分析的结果难以得到有效的保证。聚类的伸缩性要求主要是指算法不仅能够处理较小的数据集合,还要能够处理含有百万、千万条数据记录的海量数据对象。为了便于扩展,就要求算法的执行效率不能过低,最好能够在线性时间或者多项式时间内完成。当轨迹数据增多,使用hausdorffdistance计算量就会增大,效率迅速降低。然而标签传播算法(LPA)只需利用少量的训练标签指导,利用未标注数据的内在结构、分布规律和邻近数据的标记,即可预测和传播未标记数据的标签,然后合并到标记的数据集中。该算法操作简单、运算量小,适合大规模数据信息的挖掘和处理,准确性高于基于hausdorffdistance的聚类方法。
技术实现思路
本专利技术的目的在于克服现有技术的不足,基于经典聚类算法进行改进,提供一种基于道路网络的时空轨迹聚类方法。本专利技术的目的是通过以下技术方案来实现的:一种基于道路网络的时空轨迹聚类方法,它包括以下步骤:S1:数据采集,利用轨迹记录设备采集移动对象的时空轨迹数据,或者以用户真实采集的GPS数据为基础,作为数据输入;S2:时空轨迹表达,基于局部插值模型,通过线性插值和语义扩充建立模型输出轨迹文件,并对轨迹文件选取特征点,通过特征点,基于速度和角度划分子轨迹进行轨迹重构;S3:时空相似性度量,计算子轨迹间的网络距离,作为时空相似性度量依据;S4:子轨迹聚类,运用标签传播算法,将已标记的数据作为标签传播的源,并保持一致的标签,准确实现子轨迹聚类;S5:输出聚类结果。所述的时空轨迹表达S2包括如下子步骤:S21:基于线段的轨迹表示建立时空轨迹模型,在步骤S1输入的时空轨迹数据中,提取停留点进行语义扩充,并将停留点轨迹转变为位置轨迹;S22:基于局部插值模型的时空轨迹数据表达,将时空轨迹网格离散化后,利用反距离权重法计算落在每个网格内轨迹段的各个属性的值,根据临近的采样点属性对轨迹段进行插值;S23:基于速度和角度轨迹段分离法寻找特征点,并加入速度约束来分割轨迹;S24:利用基于网路的子轨迹划分算法,输入完整轨迹和道路交汇点,输出重新划分子轨迹后的完整轨迹和划分特征点集合。所述的寻找特征点S23包括如本文档来自技高网
...

【技术保护点】
一种基于道路网络的时空轨迹聚类方法,其特征在于,它包括以下步骤:S1:数据采集,利用轨迹记录设备采集移动对象的时空轨迹数据,或者以用户真实采集的GPS数据为基础,作为数据输入;S2:时空轨迹表达,基于局部插值模型,通过线性插值和语义扩充建立模型输出轨迹文件,并对轨迹文件选取特征点,通过特征点,基于速度和角度划分子轨迹进行轨迹重构;S3:时空相似性度量,计算子轨迹间的网络距离,作为时空相似性度量依据;S4:子轨迹聚类,运用标签传播算法,将已标记的数据作为标签传播的源,并保持一致的标签,准确实现子轨迹聚类;S5:输出聚类结果。

【技术特征摘要】
1.一种基于道路网络的时空轨迹聚类方法,其特征在于,它包括以下步骤:S1:数据采集,利用轨迹记录设备采集移动对象的时空轨迹数据,或者以用户真实采集的GPS数据为基础,作为数据输入;S2:时空轨迹表达,基于局部插值模型,通过线性插值和语义扩充建立模型输出轨迹文件,并对轨迹文件选取特征点,通过特征点,基于速度和角度划分子轨迹进行轨迹重构;S3:时空相似性度量,计算子轨迹间的网络距离,作为时空相似性度量依据;S4:子轨迹聚类,运用标签传播算法,将已标记的数据作为标签传播的源,并保持一致的标签,准确实现子轨迹聚类;S5:输出聚类结果。2.根据权利要求1所述的一种基于道路网络的时空轨迹聚类方法,其特征在于,所述的时空轨迹表达包括如下子步骤:S21:基于线段的轨迹表示建立时空轨迹模型,在步骤S1输入的时空轨迹数据中,提取停留点进行语义扩充,并将停留点轨迹转变为位置轨迹;S22:基于局部插值模型的时空轨迹数据表达,将时空轨迹网格离散化后,利用反距离权重法计算落在每个网格内轨迹段的各个属性的值,根据临近的采样点属性对轨迹段进行插值;S23:基于速度和角度轨迹段分离法寻找特征点,并加入速度约束来分割轨迹;S24:利用基于网路的子轨迹划分算法,输入完整轨迹和道路交汇点,输出重新划分子轨迹后的完整轨迹和划分特征点集合。3.根据权利要求2所述的一种基于道路网络的时空轨迹聚类方法,其特征在于,所述的寻找特征点包括如下子步骤:S231:在给定距离内,首先扫描计算每个点,判断出候选关键点和候选变速点;S232:清除多余候选关键点和多余候选变速点,判断出关键点和变速点,利用关键点确定轨迹段;S233:首先,开始点被加入到特征点集合;S234:进入循环,找出轨迹特性快速改变的点并加入到特征点集合中,分别用变量表示出相邻子段的方向和速度变化,并分别用变量表示出累计的方向和速度变化;S235:判断累计变量,若超过阈值,则前一个点被选为特征点。4.根据权利要求2所述的一种基于道路网络的时空轨迹聚类方法,其特征在于,所述的子轨迹划分算法包括如下子步骤:S241:首先输入完整轨迹和道路交汇点,将移动对象的第一个采样点加入到特征点集合中;S242:接下来循环判断每个子轨迹的时空起点和时空终点是否被道路交汇点隔开;S243:如果隔开则重新划分当前子轨迹并加入整轨迹,然后重置当前子轨迹,继续循环计算该子轨迹的特征点;S244:当子轨迹段的时空起点和时空终点在一条道路段中时,判断子轨迹段的方向、速度和地理空间变化,找出轨迹特性快速改变的点并加入到特征点集合中;S245:如果该点不能作为特征点,则将当前子轨迹合并,并将合并后的子轨迹重新加入特征点的计算中;S246:输出重新划分子轨迹后的完整轨迹和划分特征点集合。5.根据权利要求1所述的一种基于道路网...

【专利技术属性】
技术研发人员:牛新征侯孟书牛嘉郡张洪魏驰
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1