一种基于轨迹表示学习的相似度查询优化方法技术

技术编号:36188138 阅读:39 留言:0更新日期:2022-12-31 20:57
本发明专利技术公开了一种基于轨迹表示学习的相似度查询优化方法,本发明专利技术的轨迹相似度查询是将轨迹表示成向量,在向量空间利用两个向量之间的欧氏距离找到离查询轨迹距离最近的轨迹。本发明专利技术提出了一种基于路网分区的轨迹表示学习模型PT2vec,PT2vec考虑了轨迹的空间特征和底层路网的拓扑约束将轨迹嵌入到低维向量空间,设计一个基于空间和拓扑信息的损失函数,加快模型的训练,提高模型准确度,并有效的解决了大规模轨迹相似度计算时间过大的问题。同时为了减小轨迹查询空间,提高查询效率,使用PT

【技术实现步骤摘要】
一种基于轨迹表示学习的相似度查询优化方法


[0001]本专利技术属于时空数据管理
,具体涉及一种基于轨迹表示学习的相似度查询优化方法,基于路网分区的深度表示学习模型(PT2vec)和针对轨迹相似度查询的PT

GTree索引,用来实现大规模轨迹数据的相似度查询。

技术介绍

[0002]随着物联网和车联网技术中位置获取的快速发展,已经产生了可用于描述运动物体的多样性和属性的轨迹数据。轨迹模式分析和管理已经成为近几十年来的一个关键问题,因为它支持许多领域和应用(例如,智能城市、智能交通、基于位置的服务、健康管理等)。由于最近人工智能技术的发展,可以利用人工智能技术以前所未有的规模分析轨迹数据,以评估智能交通系统(ITS) 中有关有效性、效率准确性和隐私的适用问题。传统的大规模轨迹数据研究主要集中在轨迹相似度计算、轨迹聚类、轨迹异常检测等方面,并使用R

tree索引和网格索引等技术建立索引结构。目前随着深度学习技术的快速发展,深度表示学习技术不仅能够从形式上对原始轨迹进行规范和简化还可以从冗余的原始信息中提取出有价值的部分,从而使轨迹模式分析和管理更加高效。
[0003]现有的轨迹相似度度量方法,如动态时间包装(DTW)、最长公共子序列(LCSS) 和编辑距离实序列(EDR)。然而,现有的传统方法通常采用动态规划来确定两个轨迹的成对点匹配的最佳对齐,这导致了二次计算复杂度。但是,当轨迹规模很大时这些方法不适用。
[0004]早期的轨迹表示方法大多是基于人工设计的特征来表示轨迹,因此这类方法也叫做轨迹特征提取。因为这类轨迹中包含了大量的时间、空间和语义信息。轨迹特征提取的核心思想是,利用已有的时空信息来挖掘新的特将原始的轨迹点序列转化为特征序列。但是目前轨迹数据的规模是非常大的,基于人工设计特征的轨迹表示方法依赖专家知识,而且对于不同的轨迹场景需要重新选择特征,且特征种类有限,因此增加了此类方法的应用难度。相反,如果使用一种模型自动学习出轨迹序列的相关信息,并生成一种轨迹表示,就可以解决以上问题。

技术实现思路

[0005]为了解决大规模轨迹相似度查询效率问题,本专利技术提出了一种基于轨迹表示学习的相似度查询优化方法,包括以下步骤:
[0006]S1:对路网进行分区,并对每个分区及边界边按顺序排号赋予标签单词,构建词汇表;
[0007]S2:获取多条原始轨迹,基于上述词汇表,对原始轨迹进行路网匹配,将匹配后的轨迹序列转换为词序列;
[0008]S3:根据分区结果构建PT

GTree,将步骤S2中匹配后的轨迹存储到PT

GTree 最小公共祖先节点中,针对轨迹相似性查询,利用PT

GTree对查询数据库进行剪枝,确定查询候选轨迹集;
[0009]S4:构建基于GRU(门循环单元)的编码器

解码器模型,使用步骤S2中的词序列作为输入,经过编码器将其编码为向量v,然后通过解码器解码出一个输出序列y,同时设计一种基于空间和拓扑信息的损失函数对该模型进行训练;
[0010]S5:利用训练好的编码器

解码器模型将步骤S3中确定的候选轨迹嵌入到低维向量空间,将候选轨迹都表示成向量的形式,使用两个轨迹向量之间的欧氏距离来表示轨迹的相似程度,距离越小轨迹越相似。
[0011]进一步的,步骤S1中,利用多层划分算法对路网进行划分,具体的,
[0012]对路网的顶点和边缘进行粗化来减少网络规模;
[0013]使用Kernighan

Lin网络划分算法对粗化的路网图上进行划分形成多个子图;通过设定两个参数m和n进行划分,其中m为每个子图中路网节点的个数;n 为划分子图的数量;
[0014]对子图进行解粗,生成原始网络的最终分区,对最终分区和边界边按顺序编号赋予标签,每个标签对应相应的单词,这些单词组成词汇表。
[0015]进一步的,基于PT

GTree索引的轨迹相似度查询剪枝方法如下:
[0016]利用步骤S2中的分区结果构建PT

GTree,找到所有原始轨迹经过的所有叶子节点,找到所有叶子节点的最小公共祖先节点,并将原始轨迹存储到相应的树节点中;
[0017]给定一条待查询轨迹,首先找到待查询轨迹经过的所有叶子节点,再根据这些叶子节点找到待查询轨迹的最小公共祖先节点,将最小公共祖先节点和其孩子节点中存储的原始轨迹作为候选集。
[0018]进一步的,损失函数如下所示
[0019][0020][0021]其中,W是将h
t
从隐藏状态空间投射到单词列表空间的投影矩阵,W
u
表示它的第u行,D(u,y
t
)表示单词之间最短的路网距离,λ是一个距离尺度参数,TK(y
t
)表示接近y
t
的K个单词,T(y
t
)表示拓扑结构上直接与目标单词相连的单词。
[0022]进一步的,步骤S5中,将词序列输入到改进后模型的编码器,通过嵌入和3 层GRU网络的计算单元将轨迹序列编码为一个低维的潜在向量v;
[0023]解码器依此计算每个位置上的输出序列的条件概率;具体的,在某一位置上,解码器将该位置之前的输出序列和潜在向量转换为隐藏状态,该隐藏状态保留了词序列和输出序列的序列信息,然后通过隐藏状态预测该位置的输出,最后得到输出序列y,利用损失函数计算输出序列y和目标序列之间的损失,模型根据损失来调整参数,使模型更加准确。
[0024]本专利技术的有益效果如下:
[0025]本专利技术提供了一种基于轨迹表示学习的相似度查询优化方法,是利用深度学习方法,将轨迹嵌入到低维潜在向量,从而支持高效的轨迹相似度计算和查询。本专利技术提出了一种基于路网分区的轨迹表示学习模型PT2vec,PT2vec考虑了轨迹的空间特征和底层路网的拓扑约束将轨迹嵌入到低维向量空间,设计一个基于空间和拓扑信息的损失函数,加快模
型的训练,提高模型准确度,并有效的解决了大规模轨迹相似度计算时间过大的问题。同时为了减小轨迹查询空间,提高查询效率,建立一个PT

GTree索引对查询数据库中的轨迹进行剪枝。
[0026]本专利技术的序列编码器

解码器模型的损失函数是基于路网拓扑和空间信息设计的,原始的序列编码器

解码器没有建模单词之间的拓扑和空间相关性,原始的损失函数以相同的权重惩罚输出单词,但是在路网空间中,更接近目标单词的输出单词比那些更遥远的输出单词更容易接受,当试图从解码器解码一个单词时,为每一个单词分配一个权重,单词的权重与其到目标单词的路网距离成反比,所以单词越接近目标单词,分配给它的权重越大。同时为了加快模型的训练,根据路网的拓扑结构进一步优化损失函数,因为除了和目标单词在拓扑结构上相连的单词,大多数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于路网划分的轨迹表示学习和相似度查询方法,其特征在于,包括如下步骤:S1:对路网进行分区,并对每个分区及边界边按顺序排号赋予标签单词,构建词汇表;S2:获取多条原始轨迹,基于上述词汇表,对原始轨迹进行路网匹配,将匹配后的轨迹序列转换为词序列;S3:根据分区结果构建PT

GTree,将步骤S2中匹配后的轨迹存储到PT

GTree最小公共祖先节点中,针对轨迹相似性查询,利用PT

GTree对查询数据库进行剪枝,确定查询候选轨迹集;S4:构建基于GRU的编码器

解码器模型,使用步骤S2中的词序列作为输入,经过编码器将其编码为低维的潜在向量v,然后通过解码器解码出一个输出序列y,同时设计一种基于空间和拓扑信息的损失函数对该模型进行训练;S5:利用训练好的编码器

解码器模型将步骤S3中确定的候选轨迹嵌入到低维向量空间,将候选轨迹都表示成向量的形式,使用两个轨迹向量之间的欧氏距离来表示轨迹的相似程度,距离越小轨迹越相似。2.按照权利要求1所述的基于路网划分的轨迹表示学习和相似度查询方法,其特征在于:步骤S1中,利用多层划分算法对路网进行划分,具体的,对路网的顶点和边缘进行粗化来减少网络规模;使用Kernighan

Lin网络划分算法对粗化的路网图上进行划分形成多个子图;通过设定两个参数m和n进行划分,其中m为每个子图中路网节点的个数;n为划分子图的数量;对子图进行解粗,生成原始网络的最终分区,对最终分区和边界边按顺序编号赋予标签,每个标签对应相应的单词,这些单词组成词汇表。3.按照权利要求1所述的基于路网划分的轨迹表示学习...

【专利技术属性】
技术研发人员:李佳佳王明申赵颖李雷
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1