The invention discloses a top m reverse nearest neighbor space keyword search method, which is characterized in that the method comprises the following steps: step one, given a set of user U and spatial text object data in P D, the candidate locations set L and set W keyword, select a keyword group w a candidate where l and W from L, a I of the new query object q = < L, w> as a candidate set of objects, to combine a m candidate combination object; step two, for each candidate combination object of a RSTkNN query, which has been in a the RSTkNN query result set; according to the RSTkNN results of each candidate set of objects, select candidate combination object from the M base of the largest candidate object combination. The invention finds m different product objects so as to attract the largest number of different customers, and can help the merchants to allocate resources and make decision support.
【技术实现步骤摘要】
top-m反近邻空间关键字查询方法
本专利技术涉及关键字查询方法,尤其涉及一种top-m反近邻空间关键字查询方法。
技术介绍
这些年,近邻空间关键字查询技术不断地发展,其已经被广泛地应用到实际生活中用于帮助用户搜索到合适商品或者地点等(比如,利用百度地图搜索附近酒店)。不同于近邻空间关键字查询技术,反k近邻空间关键字(RSKkNN)查询可以帮助商家找到潜在的客户。近几年,人们对RSKkNN查询也做出了研究,且该查询部分成果目前已经被应用到实际商业领域中,比如帮助商家进行市场分析、决策支持等。不同于kNN查询,RkNN查询要求返回的查询用户都将输入的查询对象作为k近邻之一。随着移动互联网技术的飞速发展,人们希望在进行RkNN查询的时候同时考虑文本信息。因此,Lu等人首次提出了反空间文本k近邻(RSTkNN)查询算法,并提出了IUR-tree索引和相应的查询算法。IUR-tree中每个树结点都包含一个最小边界矩阵(MBR)和两个文本向量(并向量和交向量)。Choudhury等人首次提出了最大化双射反k近邻空间文本(MaxBRSTkNN)查询。MaxBRSTkNN查询的目的在于在一些候选地点集合和候选关键字集合中,选出一个地点和若干关键字的组合使得TSTkNN查询的结果基数最大。MaxBRSTkNN查询可以应用到实际应用场景,比如,现在有个商家想在某商业区开一家餐馆,MaxBRSTkNN查询可以帮助其发现在某个地址开什么样主题的餐馆,能够使得预期吸引的消费者最多。我们在研究现有的研究工作时发现,RSTkNN查询每次只能为一个对象查询所有将该对象作为k近邻之一的用 ...
【技术保护点】
一种top‑m反近邻空间关键字查询方法,其特征在于,包括以下步骤:步骤一、给定一个包含用户U和空间文本对象P的数据集D,对于候选地点集合L和关键字组集合W,从L中选择一个候选地点l以及W中选择一个关键字组w,组成一个第i个新的查询对象q=<l,w>作为一个候选组合对象,从而组合出m个候选组合对象;步骤二、为每一个候选组合对象进行一次RSTkNN查询,从而得到一个RSTkNN查询结果集合;根据每一个候选组合对象的RSTkNN查询结果集合,从m个候选组合对象中选择出基数最大的候选组合对象。
【技术特征摘要】
1.一种top-m反近邻空间关键字查询方法,其特征在于,包括以下步骤:步骤一、给定一个包含用户U和空间文本对象P的数据集D,对于候选地点集合L和关键字组集合W,从L中选择一个候选地点l以及W中选择一个关键字组w,组成一个第i个新的查询对象q=<l,w>作为一个候选组合对象,从而组合出m个候选组合对象;步骤二、为每一个候选组合对象进行一次RSTkNN查询,从而得到一个RSTkNN查询结果集合;根据每一个候选组合对象的RSTkNN查询结果集合,从m个候选组合对象中选择出基数最大的候选组合对象。2.如权利要求1所述的top-m反近邻空间关键字查询方法,其特征在于,所述步骤二中,其具体过程包括:步骤(1)构建MIR-tree索引:根据空间文本对象数据集P建立R-tree,保存数据的地理位置信息;每个数据对象p以从下往上的方式将文本信息更新到R-tree中,保存到各树节点的倒排列表中,从而构建MIR-tree;其中,在MIR-tree中,每个关键字k所对应的倒排列表为一个三元组序列<p,Maxwp,k,Minwp,k>,其中p为对象id,Maxwp,k为最大权重而Minwp,k为最小权重;步骤(2)利用MIR-tree索引为U中的每个用户u进行单独的top-k查询,返回top-k查询结果;步骤(3)计算候选组合对象的RSTkNN查询结果,选出基数最大的m个候选组合对象。3.如权利要求2所述的top-m反近邻空间关键字查询方法,其特征在于,所述步骤二的步骤(2)中,利用MIR-tree索引为U中的每个用户u进行单独的top-k查询,返回top-k查询结果,其具体过程包括:步骤a)给出聚合用户、上界相关性得分以及下界相关性得分的定义:聚合用户是将所有用户U聚合形成的一个超级抽象用户,表示为Us,Us的地理位置信息Us.l为将所有用户包含的最小边界矩阵,而Us的文本信息用两个关键字词向量表示,分别为聚合用户-并向量Us.uniT和聚合用户-交向量Us.intT;Us和MIR-tree中树结点n之间的上界相关性得分为Us和结点n最短距离得分和最大文本相似得分的综合聚合得分,公式表示如下:UB(n,Us)=α·MinDistS(n.l,Us.l)+(1-α)·MaxTextS(n.T,Us.uniT),其中,MinDistS(n.l,Us.l)表示在空间维度上,结点n和聚合用户Us之间最短距离得分,而MaxTextS(n.T,Us.uniT)则表示在文本维度上,n和Us的最大可能文本相似度得分,两个得分通过平滑因子α来表示用户对空间维度的偏好;Us和MIR-tree中树结点n之间的上界相关性得分,其公式表示如下:LB(n,Us)=α·MaxDistS(n.l,Us.l)+(1-α)·MinTextS(n.T,Us.intT),其中,...
【专利技术属性】
技术研发人员:鲜学丰,赵朋朋,旷晓鹏,崔志明,
申请(专利权)人:江苏省现代企业信息化应用支撑软件工程技术研发中心,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。