一种基于Trie的空间关键词查询方法及装置制造方法及图纸

技术编号:19544088 阅读:48 留言:0更新日期:2018-11-24 20:40
本发明专利技术涉及一种基于Trie的空间关键词查询方法及装置,本发明专利技术方法包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串geoStr,根据字符串geoStr后缀ssuf按字典序对数据集D中的每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;空间关键词索引建立步骤,对字符串前缀spre构建Trie,Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;空间关键词查询步骤,检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。本发明专利技术可高效支持任意空间范围的关键词查询。

A Trie-based spatial keyword query method and device

The invention relates to a Trie-based spatial keyword query method and device. The method of the invention includes: data preprocessing steps, encoding all position points in data set D into a string geoStr with a growth of n, sorting each row of data in data set D according to the string geoStr suffix ssuf in dictionary order and generating a number ID for each row. The row data is called a record r, and the data set consisting of one or more rows of records R is called recordset R; the spatial keyword index establishment step is to construct Trie for the string prefix spre; the leaf nodes of Trie point to the inverted index based on the keywords in the field, and the list elements of the inverted index are keywords and their corresponding ID columns. Tables, get the spatial keyword index structure; spatial keyword query steps, retrieve the spatial keyword index structure, obtain the ID that meets the query conditions, filter the ID candidate set, and verify the candidate set to return the location points that meet the spatial query conditions. The invention can efficiently support keyword query in any spatial range.

【技术实现步骤摘要】
一种基于Trie的空间关键词查询方法及装置
本专利技术涉及一种基于Trie的空间关键词查询方法及装置,属于空间关键词查询(SpatialKeywordquery)领域、基于位置的服务(Location-BasedService,LBS)等领域。
技术介绍
近年来,随着移动设备的普及、定位技术的快速发展,导致产生了大量基于位置的服务,如导航服务(高德地图、百度地图、腾讯地图等)根据当前的交通状态实时为用户推荐到达目的地的最优路线;社交服务(如:Foursquare、Twitter、微信、陌陌等)允许用户共享自己的地理位置并添加相应描述信息供其他用户参考;食住服务(如:美团外卖、饿了么、去哪儿、携程等)允许用户查询附近兴趣点;娱乐服务(如:Wikitude、全城热斗等)为用户提供更逼真的游戏环境。这些LBS服务产生了大量具有位置属性的文本数据,即空间文本。面对这样的发展趋势,高效支持空间文本查询亟需高效的空间文本索引结构。根据应用场景,空间文本查询可分为空间关键词查询与分发/订阅查询。目前,国内外对空间文本索引结构进行了广泛而又深入的研究,这些索引结构通常组合空间索引结构与文本索引结构。本文档来自技高网...

【技术保护点】
1.一种基于Trie的空间关键词查询方法,其特征在于:包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串geoStr,根据字符串geoStr后缀ssuf按字典序对数据集D中的每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;其中ssuf指字符串geoStr的后n‑m位字符,m≤n,m表示字符串geoStr前缀部分的位数;空间关键词索引建立步骤,对字符串前缀spre构建Trie,Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;其中,该域指从根节点到叶节点所...

【技术特征摘要】
1.一种基于Trie的空间关键词查询方法,其特征在于:包括:数据预处理步骤,将数据集D中所有位置点编码成长度为n的字符串geoStr,根据字符串geoStr后缀ssuf按字典序对数据集D中的每行数据排序并生成编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;其中ssuf指字符串geoStr的后n-m位字符,m≤n,m表示字符串geoStr前缀部分的位数;空间关键词索引建立步骤,对字符串前缀spre构建Trie,Trie的叶节点指向根据该域内关键词构建的倒排索引,倒排索引的列表元素为关键词及与其相对应的id列表,得到空间关键词索引结构;其中,该域指从根节点到叶节点所构成的geoStr前缀sprei,sprei指第i个字符串geoStr的前m位字符,spre指字符串geoStr的前m位字符;空间关键词查询步骤,检索空间关键词索引结构,获取满足查询条件的id,经过滤得到id候选集,并对候选集验证返回满足空间查询条件的位置点。2.根据权利要求1所述的基于Trie的空间关键词查询方法,其特征在于:所述数据预处理步骤,具体包括如下步骤:步骤110:给定一个由一系列位置点、关键词集构成的数据集D,通过geohash空间编码方法将数据集D中的位置点编码成长度为n的字符串geoStr;其中,位置点由纬度、经度数据构成;其中geoStr即geohash编码,表示geohash精度表中n对应的范围区域,步骤120:将每一个geoStr分为m位前缀部分spre和n-m位后缀部分ssuf,根据ssuf按字典序对数据集D中每行数据排序并编号id,每一行数据称为一条记录r,则由一至多行记录r组成的数据集称为记录集R;其中,R中每行数据r由id、纬度lat、经度lon、字符串geoStr、关键词集items组成,items至少包含一个关键词item。3.根据权利要求1所述的基于Trie的空间关键词查询方法,其特征在于:所述空间关键词索引建立步骤,具体为:步骤210:对Rspre构建Trie索引结构,每个spre可映射为Trie中一条从根到叶节点的路径,叶节点指向根据该域内关键词构建的倒排索引;其中,Rspre表示R中所有spre,spre可称为该叶节点的前缀,该域指从根节点到叶节点所构成的前缀sprei,i表示Rspre中第i个字符串;步骤220:对Ritems中每个独立元素item,构建一个由包含item的rpart.id组成的倒排列表;其中,rpart表示R中r.geoStr的前m位等于sprei的r.id、r.items,r.geoStr表示r的geoStr,r.id表示r的id,r.items表示r的关键词集,Rpart表示由一至多行rpart组成的数据集,Ritems表示Rpart中全部关键词,rpart.id表示rpart的id;步骤230:对Rsuf构建geoStr后缀ssuf与id的映射表;其中,Rsuf表示R中所有ssuf。4.根据权利要求3所述的基于Trie的空间关键词查询方法,其特征在于:所述空间关键词查询步骤,具体包括如下步骤:步骤310:给定查询位置点q、查询距离范围d、查询关键词集qitems,根据geohash精度表选定与d相对应的geohash编码长度p,通过geohash空间编码方法将位置点q编码为p位长度的字符串qs,获取字符串qs周围8个区域的geohash编码,并将字符串qs及其周围8个区域的geohash编码分别作为查询域,共9个查询域;其中,p对应的距离误差不小于d且为最小值;qitems至少由一个关键词item构成;步骤320:检索空间关键词索引结构返回满足查询条件的id;其中,查询条件指查询域内包含全部qitems的id;步骤330:根据查询位置点q和查询距离范围d分别确定纬度范围与经度范围,之后按经纬度范围对与步骤320返回的id相对应的位置点进行筛选,最终得到id候选集;步骤340:计算候选集中id对应的位置点到q的距离dq:若dq≤d,则返回该位置点,否则,不返回。5.根据权利要求2所述的基于Trie的空间关键词查询方法,其特征在于:所述步骤110,包括下列...

【专利技术属性】
技术研发人员:沈兵林贾连印游进国丁家满张晶陈明鲜张崇德唐季林
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1