top‑m反近邻空间关键字查询方法技术

技术编号:16644788 阅读:52 留言:0更新日期:2017-11-26 17:15
本发明专利技术公开了一种top‑m反近邻空间关键字查询方法,其特征在于,包括以下步骤:步骤一、给定一个包含用户U和空间文本对象P的数据集D,对于候选地点集合L和关键字组集合W,从L中选择一个候选地点l以及W中选择一个关键字组w,组成一个第i个新的查询对象q=<l,w>作为一个候选组合对象,从而组合出m个候选组合对象;步骤二、为每一个候选组合对象进行一次RSTkNN查询,从而得到一个RSTkNN查询结果集合;根据每一个候选组合对象的RSTkNN查询结果集合,从m个候选组合对象中选择出基数最大的候选组合对象。本发明专利技术找到m个不同产品对象使其预期吸引不同的客户数最多,可以帮助商家进行资源分配以及决策支持等。

Top m reverse nearest neighbor space keyword search method

The invention discloses a top m reverse nearest neighbor space keyword search method, which is characterized in that the method comprises the following steps: step one, given a set of user U and spatial text object data in P D, the candidate locations set L and set W keyword, select a keyword group w a candidate where l and W from L, a I of the new query object q = < L, w> as a candidate set of objects, to combine a m candidate combination object; step two, for each candidate combination object of a RSTkNN query, which has been in a the RSTkNN query result set; according to the RSTkNN results of each candidate set of objects, select candidate combination object from the M base of the largest candidate object combination. The invention finds m different product objects so as to attract the largest number of different customers, and can help the merchants to allocate resources and make decision support.

【技术实现步骤摘要】
top-m反近邻空间关键字查询方法
本专利技术涉及关键字查询方法,尤其涉及一种top-m反近邻空间关键字查询方法。
技术介绍
这些年,近邻空间关键字查询技术不断地发展,其已经被广泛地应用到实际生活中用于帮助用户搜索到合适商品或者地点等(比如,利用百度地图搜索附近酒店)。不同于近邻空间关键字查询技术,反k近邻空间关键字(RSKkNN)查询可以帮助商家找到潜在的客户。近几年,人们对RSKkNN查询也做出了研究,且该查询部分成果目前已经被应用到实际商业领域中,比如帮助商家进行市场分析、决策支持等。不同于kNN查询,RkNN查询要求返回的查询用户都将输入的查询对象作为k近邻之一。随着移动互联网技术的飞速发展,人们希望在进行RkNN查询的时候同时考虑文本信息。因此,Lu等人首次提出了反空间文本k近邻(RSTkNN)查询算法,并提出了IUR-tree索引和相应的查询算法。IUR-tree中每个树结点都包含一个最小边界矩阵(MBR)和两个文本向量(并向量和交向量)。Choudhury等人首次提出了最大化双射反k近邻空间文本(MaxBRSTkNN)查询。MaxBRSTkNN查询的目的在于在一些候选地点集合和候选关键字集合中,选出一个地点和若干关键字的组合使得TSTkNN查询的结果基数最大。MaxBRSTkNN查询可以应用到实际应用场景,比如,现在有个商家想在某商业区开一家餐馆,MaxBRSTkNN查询可以帮助其发现在某个地址开什么样主题的餐馆,能够使得预期吸引的消费者最多。我们在研究现有的研究工作时发现,RSTkNN查询每次只能为一个对象查询所有将该对象作为k近邻之一的用户,而MaxBRSTkNN则是选择一个地点和若干关键字组合使其RSTkNN查询结果基数最大。然而现实生活中,人们往往会同时对多个产品/或者对象进行查询然后从中选出最受欢迎的若干个产品。而且,在生活中产品关键字往往是并不是随机组合的(比如自助餐馆一般不会出现“点菜”这样的属性,而咖啡店则不会出现“自助烤肉”),这一点不同于MaxBRSTkNN查询。反近邻空间关键字查询返回的结果不是空间文本对象而是包含在其他数据对象k近邻之一的查询对象q,因此其相应的查询算法也随之变化。近几年有不少这方面的研究工作,RSKkNN已然成为空间关键字查询主流的查询类型之一。Yang等人对现有的RkNN(ReversekNearestNeighbors)查询研究工作(如TPL技术、InfZone和FINCH等)进行了总结,并通过实验对其进行对比分析。Yang对TPL剪枝技术做出了优化工作,提出TPL++技术处理RkNN查询。Vlachou等人首次从产品制造商的角度研究reversetop-k查询,以发现最具吸引力的产品。Vlachou等人提出了反top-k阈值算法(Reversetop-kThresholdAlgorithm,简称RTA)和基于网格查询算法(Grid-basedReversetop-kAlgorithm,简称GRTA)。由于上述工作不支持同时满足空间位置邻近和文本内容相关性的约束,Lu等人首次提出反空间文本k近邻查询(ReverseSpatialandTextualkNeighborQuery,简称RSTkNN查询)问题,并且提出一个高效的混合索引IUR-tree(Intersection-UnionR-Tree)。IUR-tree的特点是将文本向量和R-tree结合起来。每个IUR-tree结点同时包含空间位置信息和文本信息,其中空间位置信息用最小边界矩阵(MBR)表示,文本信息则用两个文本向量(交集向量和并集向量)表示。随后,Lu等人对双色反近邻空间关键字查询(BichromaticReverseSpatialKeywordkNearestNeighborQuery,简称BRSKkNN查询)做了相应的研究,并设计了一个基于新的搜索策略的高效搜索算法以及新的评估结点之间的相关性边界的方法。由于并不是所有空间文本数据对象的RSTkNN查询都得到查询结果,Zhang等人针对该问题提出了Reversek-Ranks查询,在考虑用户偏好和查询产品属性之间的权重得分的同时,保证每个查询都能找到k个符合条件的对象。Choudhury等人首次提出了最大化双色反k近邻空间文本查询(MaximizingBichromaticReverseSpatialandTextualkNearestNeighborQuery,简称MaxBRSTkNN查询)。Fang等人提出了RandedRSTkNN查询,确保最终返回结果个数等于预定义的结果个数。在对top-mRSTkNN查询进行问题分析与定义之前,先介绍一下RSTkNN查询。接下来,先通过一个例子来说明RSTkNN查询。图1(a)和图1(b)为RSTkNN查询示例,其中图1(a)和图1(b)分别表示数据集的空间分布和文本信息。根据top-k空间关键字查询的定义,在k=1时,可以算出:top-k(u1)={p1},top-k(u2)={p1},top-k(u3)={p2}。而由于RSTkNN查询的目的在于所有将查询对象作为top-k结果之一的用户,故可以算出p1和p2的RSTkNN查询的结果:RSTkNN(p1)={u1,u2},RSTkNN(p2)={u3}。RSTkNN查询返回的结果个数是不确定的。RSTkNN查询的定义如下:给定一个包含用户集合U和空间文本对象集合P的数据集D,对于一个目标查询对象q,RSTkNN查询搜索所有将查询对象q作为其top-k结果(topk(u))之一的用户U′(有u∈U)。可以用以下公式表示:由上可知,RSTkNN查询是针对某个查询对象q,检索出所有将q作为top-k结果之一的用户。如果每次查询的时候,查询输入不再是某个对象q,而是一些候选地点集合和关键字组集合,要求输出结果是若干地点和关键字组组合新对象,且要求这些对象预期影响力最大,即将这些对象作为top-k结果之一的非重复的用户最多。由于现有的工作不能很好地解决此问题,故本专利技术提出一种新的反近邻空间关键字查询,命名为top-m反k近邻空间关键字查询(top-mRSTkNN查询)。
技术实现思路
针对上述技术问题,本专利技术设计开发了一种top-m反近邻空间关键字查询方法,在给定一个包含用户U和空间文本对象P的数据集D的情况下,对于一些候选地点集合L和关键字组集合W,查询搜索m个候选地点和关键字组组成的新对象,它们做RSTkNN查询返回的非重复的用户集合U'基数最大。本专利技术提供的技术方案为:一种top-m反近邻空间关键字查询方法,包括以下步骤:步骤一、给定一个包含用户U和空间文本对象P的数据集D,对于候选地点集合L和关键字组集合W,从L中选择一个候选地点l以及W中选择一个关键字组w,组成一个第i个新的查询对象q=<l,w>作为一个候选组合对象,从而组合出m个候选组合对象;步骤二、为每一个候选组合对象进行一次RSTkNN查询,从而得到一个RSTkNN查询结果集合;根据每一个候选组合对象的RSTkNN查询结果集合,从m个候选组合对象中选择出基数最大的候选组合对象。优选的是,所述的top-m反近邻空间关键字查询方法中,所述步骤二中,其具体过程包本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201710556389.html" title="top‑m反近邻空间关键字查询方法原文来自X技术">top‑m反近邻空间关键字查询方法</a>

【技术保护点】
一种top‑m反近邻空间关键字查询方法,其特征在于,包括以下步骤:步骤一、给定一个包含用户U和空间文本对象P的数据集D,对于候选地点集合L和关键字组集合W,从L中选择一个候选地点l以及W中选择一个关键字组w,组成一个第i个新的查询对象q=<l,w>作为一个候选组合对象,从而组合出m个候选组合对象;步骤二、为每一个候选组合对象进行一次RSTkNN查询,从而得到一个RSTkNN查询结果集合;根据每一个候选组合对象的RSTkNN查询结果集合,从m个候选组合对象中选择出基数最大的候选组合对象。

【技术特征摘要】
1.一种top-m反近邻空间关键字查询方法,其特征在于,包括以下步骤:步骤一、给定一个包含用户U和空间文本对象P的数据集D,对于候选地点集合L和关键字组集合W,从L中选择一个候选地点l以及W中选择一个关键字组w,组成一个第i个新的查询对象q=<l,w>作为一个候选组合对象,从而组合出m个候选组合对象;步骤二、为每一个候选组合对象进行一次RSTkNN查询,从而得到一个RSTkNN查询结果集合;根据每一个候选组合对象的RSTkNN查询结果集合,从m个候选组合对象中选择出基数最大的候选组合对象。2.如权利要求1所述的top-m反近邻空间关键字查询方法,其特征在于,所述步骤二中,其具体过程包括:步骤(1)构建MIR-tree索引:根据空间文本对象数据集P建立R-tree,保存数据的地理位置信息;每个数据对象p以从下往上的方式将文本信息更新到R-tree中,保存到各树节点的倒排列表中,从而构建MIR-tree;其中,在MIR-tree中,每个关键字k所对应的倒排列表为一个三元组序列<p,Maxwp,k,Minwp,k>,其中p为对象id,Maxwp,k为最大权重而Minwp,k为最小权重;步骤(2)利用MIR-tree索引为U中的每个用户u进行单独的top-k查询,返回top-k查询结果;步骤(3)计算候选组合对象的RSTkNN查询结果,选出基数最大的m个候选组合对象。3.如权利要求2所述的top-m反近邻空间关键字查询方法,其特征在于,所述步骤二的步骤(2)中,利用MIR-tree索引为U中的每个用户u进行单独的top-k查询,返回top-k查询结果,其具体过程包括:步骤a)给出聚合用户、上界相关性得分以及下界相关性得分的定义:聚合用户是将所有用户U聚合形成的一个超级抽象用户,表示为Us,Us的地理位置信息Us.l为将所有用户包含的最小边界矩阵,而Us的文本信息用两个关键字词向量表示,分别为聚合用户-并向量Us.uniT和聚合用户-交向量Us.intT;Us和MIR-tree中树结点n之间的上界相关性得分为Us和结点n最短距离得分和最大文本相似得分的综合聚合得分,公式表示如下:UB(n,Us)=α·MinDistS(n.l,Us.l)+(1-α)·MaxTextS(n.T,Us.uniT),其中,MinDistS(n.l,Us.l)表示在空间维度上,结点n和聚合用户Us之间最短距离得分,而MaxTextS(n.T,Us.uniT)则表示在文本维度上,n和Us的最大可能文本相似度得分,两个得分通过平滑因子α来表示用户对空间维度的偏好;Us和MIR-tree中树结点n之间的上界相关性得分,其公式表示如下:LB(n,Us)=α·MaxDistS(n.l,Us.l)+(1-α)·MinTextS(n.T,Us.intT),其中,...

【专利技术属性】
技术研发人员:鲜学丰赵朋朋旷晓鹏崔志明
申请(专利权)人:江苏省现代企业信息化应用支撑软件工程技术研发中心
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1