基于路网索引的Top-K空间关键字查询方法技术

技术编号:34513368 阅读:14 留言:0更新日期:2022-08-13 20:59
本发明专利技术公开了一种基于路网索引的Top

【技术实现步骤摘要】
基于路网索引的Top

K空间关键字查询方法


[0001]本专利技术涉及路网索引和Top

K查询的
,尤其是指一种基于路网索引的Top

K空间关键字查询方法。

技术介绍

[0002]Top

k空间关键字查询问题作为空间数据库的一大研究热点,其目的是查询出离用户位置距离较近并且满足用户查询偏好的若干个对象,而其查询意图则是由关键词作为表达。Top

k空间关键字查询问题不仅考虑了对象与关键字的匹配程度,还考虑了用户与查询对象之间的空间距离,根据空间距离的衡量方式上的区别,可以分为欧式空间和路网空间两种不同的距离。欧式空间表示的是两点距离用直线距离来度量,而路网空间两点距离是用道路网上的最短路程来度量。
[0003]不过,支持路网上高效的Top

K查询是非常困难的。其主要的瓶颈在于,计算点到点最短路的代价特别高,不像计算两点欧式直线距离那么简单。此外,即使能很快得到道路最短道路距离,如果没有高效的剪枝算法和策略,要计算出Top

K结果也是非常消耗时间的。虽然现在有大量的工作研究路网上的Top

K查询处理问题。然而,现有的方法都没办法支持大规模的道路网络。这些方法的主要问题大多是索引会导致过高的存储代价,或着太高的预处理时间代价。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的缺点与不足,提出了一种基于路网索引的Top
>‑
K空间关键字查询方法,以划分子图的方式构建路网索引,缓解了索引存储代价太高的问题,将节点的空间文本得分为上界剪枝对象,能够提高查找Top

K空间关键字对象的速度。
[0005]为实现上述目的,本专利技术所提供的技术方案为:基于路网索引的Top

K空间关键字查询方法,包括以下步骤:
[0006]1)对路网的相关概念进行定义,其中包括空间关键字对象o、路网图G和两个顶点间的最短通行时间函数τ
*
(t);
[0007]2)使用步骤1)得到的最短通行时间函数τ
*
(t)衡量空间关键字对象o的空间邻近性,得到空间得分函数,记为f
s
(o);使用TF

IDF模型衡量空间关键字对象o的文本相似性,得到文本得分函数,记为f
d
(o);使用文本得分函数f
d
(o)和空间得分函数f
s
(o)加权计算得到空间文本得分函数,记为
[0008]3)根据步骤1)定义的路网,使用其包含的边和顶点信息对路网索引TKG

tree进行构造;TKG

tree是一颗由图切割而来的平衡树结构,其根节点对应整个路网图G,并有着以下性质:根节点的每个后代节点n
i
都对应一个子图G
i
,把最下面一层节点称为叶子节点;TKG

tree有两个超参数f和μ,分别代表非叶子节点的分支数和叶子节点的顶点数量上限;每个节点n
i
均包含了一个通行时间矩阵M
i
和一个记录了对象关键字信息o.key的倒排文档D
i

[0009]4)以步骤2)得到的空间文本得分函数作为Top

K结果排序的指标,从查询点v
q
出发,利用步骤3)构建的路网索引TKG

tree找到排名Top

K的空间关键字对象o。
[0010]进一步,在步骤1)中,对以下概念进行了定义:
[0011]a、在路网的边中,用通行时间来表示边的长度,而边的通行时间会随着时刻t的不同而改变,因此记边的通行时间函数为ω(t);在路网顶点中,其中的部分顶点携带了以关键字形式存在的文本信息,将拥有空间位置信息和文本关键字信息的顶点称为空间关键字对象o,表示为:
[0012]o=(v
o
,o.key)
[0013]式中,v
o
表示对象所在的顶点位置,o.key表示对象关键字信息;
[0014]b、将路网建模为一个无向图,表示为:
[0015][0016]式中,G为路网图,代表一个由若干条边交叉组成的无向图路网结构;v1表示第1个顶点,v
n
表示第n个顶点,V={v1,v2,...v
n
}代表路网中的所有顶点的集合;e1表示第1条边,e
n
表示第n条边,E={e1,e2,...e
n
}表示路网中边的集合;而ω1(t)表示第1条边的通行时间函数,ω
n
(t)表示第n条边的通行时间函数,W={ω1(t),ω2(t),...ω
n
(t)}则表示与对应边相关联的通行时间函数集合;
[0017]c、在路网中,起点到终点的一条路径ρ由一系列相邻的连通顶点序列表示<v
i
,...v
j
>,其中v
i
表示第i个顶点,v
j
表示第j个顶点,而P则用来表示从起点到终点的所有路径集合;记路径ρ的通行时间函数为τ(t),那么将从起点到终点的最短通行时间函数τ
*
(t)定义如下:
[0018]τ
*
(t)=min{τ(t)|ρ∈P}
[0019]式中,τ(t)表示在时刻t出发,路径ρ的通行时间函数;τ
*
(t)则表示在时刻t出发,从起点到终点的所有路径中最短的通行时间函数。
[0020]进一步,所述步骤2)包括以下步骤:
[0021]2.1)定义了基于路网空间的Top

K空间关键字的查询参数query:
[0022]query=<v
q
,q.key,t,k>
[0023]式中,v
q
表示查询点,q.key表示查询的关键字词组,t代表查找的时刻,k表示返回的空间关键字对象o的数量;
[0024]2.2)使用最短通行时间函数τ
*
(t)来衡量空间关键字对象o与查询点v
q
的空间邻近性,定义空间得分函数f
s
(o)如下:
[0025][0026]式中,表示空间关键字对象o所在顶点v
o
到查询点v
q
之间的最短通行时间;
[0027]2.3)使用TF

IDF模型来衡量空间关键字对象o与查询的关键字词组q.key的文本相似性,定义文本得分函数f
d
(o)如下:
[0028][0029]式中,key和q.key分别表示关键字和查询本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于路网索引的Top

K空间关键字查询方法,其特征在于,包括以下步骤:1)对路网的相关概念进行定义,其中包括空间关键字对象o、路网图G和两个顶点间的最短通行时间函数τ
*
(t);2)使用步骤1)得到的最短通行时间函数τ
*
(t)衡量空间关键字对象o的空间邻近性,得到空间得分函数,记为f
s
(o);使用TF

IDF模型衡量空间关键字对象o的文本相似性,得到文本得分函数,记为f
d
(o);使用文本得分函数f
d
(o)和空间得分函数f
s
(o)加权计算得到空间文本得分函数,记为3)根据步骤1)定义的路网,使用其包含的边和顶点信息对路网索引TKG

tree进行构造;TKG

tree是一颗由图切割而来的平衡树结构,其根节点对应整个路网图G,并有着以下性质:根节点的每个后代节点n
i
都对应一个子图G
i
,把最下面一层节点称为叶子节点;TKG

tree有两个超参数f和μ,分别代表非叶子节点的分支数和叶子节点的顶点数量上限;每个节点n
i
均包含了一个通行时间矩阵M
i
和一个记录了对象关键字信息o.key的倒排文档D
i
;4)以步骤2)得到的空间文本得分函数作为Top

K结果排序的指标,从查询点v
q
出发,利用步骤3)构建的路网索引TKG

tree找到排名Top

K的空间关键字对象o。2.根据权利要求1所述的基于路网索引的Top

K空间关键字查询方法,其特征在于,在步骤1)中,对以下概念进行了定义:a、在路网的边中,用通行时间来表示边的长度,而边的通行时间会随着时刻t的不同而改变,因此记边的通行时间函数为ω(t);在路网顶点中,其中的部分顶点携带了以关键字形式存在的文本信息,将拥有空间位置信息和文本关键字信息的顶点称为空间关键字对象o,表示为:o=(v
o
,o.key)式中,v
o
表示对象所在的顶点位置,o.key表示对象关键字信息;b、将路网建模为一个无向图,表示为:式中,G为路网图,代表一个由若干条边交叉组成的无向图路网结构;v1表示第1个顶点,v
n
表示第n个顶点,V={v1,v2,...v
n
}代表路网中的所有顶点的集合;e1表示第1条边,e
n
表示第n条边,E={e1,e2,...e
n
}表示路网中边的集合;而ω1(t)表示第1条边的通行时间函数,ω
n
(t)表示第n条边的通行时间函数,W={ω1(t),ω2(t),...ω
n
(t)}则表示与对应边相关联的通行时间函数集合;c、在路网中,起点到终点的一条路径ρ由一系列相邻的连通顶点序列表示<v
i
,...v
j
>,其中v
i
表示第i个顶点,v
j
表示第j个顶点,而P则用来表示从起点到终点的所有路径集合;记路径ρ的通行时间函数为τ(t),那么将从起点到终点的最短通行时间函数τ
*
(t)定义如下:τ
*
(t)=min{τ(t)|ρ∈P}式中,τ(t)表示在时刻t出发,路径ρ的通行时间函数;τ
*
(t)则表示在时刻t出发,从起点到终点的所有路径中最短的通行时间函数。3.根据权利要求1所述的基于路网索引的Top

K空间关键字查询方法,其特征在于,所
述步骤2)包括以下步骤:2.1)定义了基于路网空间的Top

K空间关键字的查询参数query:query=<v
q
,q.key,t,k>式中,v<...

【专利技术属性】
技术研发人员:曾志新唐洁
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1