当前位置: 首页 > 专利查询>陆嘉恒专利>正文

一种基于文本信息的快速反近邻查询方法技术

技术编号:6598540 阅读:173 留言:0更新日期:2012-04-11 18:40
本发明专利技术属于信息技术领域信息检索技术,具体涉及对一种基于文本信息的快速反近邻查询方法。针对当前所提出的关于带有文本的空间信息查询方法的问题,本发明专利技术提出一种新的索引结构及查询方法,能够有效地处理含有文本描述信息的反近邻的查询。本发明专利技术通过使用一种基于R树的混合索引结构:IUR-Tree(Intersection-Union?R?Tree)来进行反近邻的查询处理,它能够综合地考虑空间对象的地理位置信息以及文本描述信息。在遍历的过程中,本发明专利技术提出了一种分支定界搜索算法,能够高效地将非目标节点剪枝,从而大大提高了查询效率。此外,我们还进一步提出了优化方法。实验表明,本发明专利技术在保证查询效果的同时,具有良好的查询效率以及扩展性。

【技术实现步骤摘要】

本专利技术属于信息
信息检索技术,具体涉及对。
技术介绍
反近邻查询技术用来查询那些以自己(查询点)作为k近邻(kNN)的对象。在很多产品中,它被用来发现“影响集”,也就是说查找那些受到查询节点影响较大的数据集中的对象。在之前的工作中,人们仅仅考虑空间(地理位置)因素,然而,在实际的应用中,单单考虑空间因素并不能够描述两个对象之间的相关性。例如如果两个餐馆的所经营的菜系及菜品相同的话,那么它们更容易受到影响。反之苏菜馆与川菜馆之间的相关性则会大大削弱。因此我们在反向近邻(RkNN)的查询中同时考虑了文本的相似性,并提出了一个新型的反近邻查询问题一种基于文本的反近邻(RSTkNN,Reverse Spatial and Textual k Nearest Neighbor)查询,它能够综合考虑对象的空间地理位置信息以及文本描述信息。 基于文本信息的反近邻查询在查询时查找那些以自己作为k近邻的对象。这种新型的查询与之前的RkNN或空间-关键字查询(例如LkT)有很大的差别。附图说明图1给出的例子来描述了我们所提出的基于文本信息的反近邻查询以及传统反近邻查询。图1 (a)中的点pi. . . p9是某个区域中的分店,查询q是打算开的新分店。Ni. . . N7 指的是最小边界矩形(MBR,Minimal bound rectangle)。其中,每一家分店所卖的商品我们在图1(b)中给出,并且每一类商品所占的权重我们可以通过TF-IDF来进行计算。我们使用q作为基于文本信息的反近邻查询的输入对象,那么此查询将会返回现有的商店中受到 q的位置以及所卖商品影响较大的店。假如,k为2,那么传统反向k近邻的查询结果将为 {p4,p5,p9},然而,通过基于文本信息的反近邻查询返回的查询结果将为{pl,p4,p5,p9}。 Pl也是我们的查询结果,这是由于Pl的文本描述信息与查询节点q的文本描述信息非常相似。基于文本信息的反近邻查询将有多方面的应用,包括基于地图的Web查询或者为地理信息系统的决策提供支持。例如,一个大型购物中心可以利用基于文本信息的反近邻查询来查找那些个人信息与此商场的商品有密切关系并且地理位置也与此商场又非常接近的人。另外,假如一个人想要租/买一个房子,那么它可以将他(她)理想中的房屋地理信息及文本描述信息提交给房屋中介。那么房东也可以将其想要租出或卖出的房屋的地理信息及文本描述信息提交给房屋中介。此时,可以利用基于文本信息的反近邻查询来帮助房东来发现潜在的客户。但是,在反近邻查询中加入了文本描述信息将带来很大的挑战,因为这将使得传统的反近邻查询方法不能够处理基于文本信息的反近邻查询问题。
技术实现思路
为了能够有效地处理基于文本信息的反近邻查询,本专利技术提出了一个混合的索引结构以及一个综合考虑了空间近邻性以及文本相似性的高效的方法。本专利技术的工作包括1)提出了前人未曾涉及的新问题-RSTkNN ; 2)提出了一个存储对象空间地理位置信息及文本描述信息的混合索引结构-IUR-Tree, 并开发了一个分值定界算法来高效地处理查询;3)提出了一个增强的混合索引结构-CIUR-Tree (clustered IUR-Tree)以及基于 CIUR-Tree 的两个优化算法。具体介绍如下1.问题定义在本专利技术中,一个对象的文本信息是用向量空间模型表示的带有权重的单词的集合。在形式上,一个文档被定义为{<屯,&>},1 = 1...!11,&为单词屯的权重。此外,单词的权重可以通过TF-IDF方法来进行计算。假定P为普通的空间对象集合。每一个空间对象被定义为一个二元组的形式 (p. Ioc ;p. VCt)。p. Ioc指对象的空间地理位置信息,p. VCt指以向量空间模型表示的对象的文本信息。在本专利技术中,我们需要1)对基于文本信息的反近邻查询进行形式化的定义对于一个对象的集合P以及一个查询点q(loC,VCt),那么RSTkNN(q,k,P)将会返回所有以q对象为其k近邻的对象集合。这里k近邻是指把其他对象与某对象的相似度按照降序进行排序,取其前k个记录作为结果,此k条记录即为此对象的k近邻。若对象q对对象ρ的k近邻,则表示对象P的k近邻包括对象q。这里所说的相似度指的是对象之间的空间文本相似度,因此在本专利技术的语义下的k近邻可以表示为空间文本k近邻(STkNN)。由此可以看出, 我们还需要2)对对象之间的空间文本相似度进行定义。具体如下所示(1)空间文本相似度已知对象pi与p2,我们将其空间文本相似度表示为SimST (pl,p2),其计算方法如下公式1所示本文档来自技高网
...

【技术保护点】
1.一种基于文本信息的快速反近邻查询方法,其特征在于,提出带有空间地理位置信息及文本描述信息的基于R树的IUR-Tree索引结构。具体包括:(1)创建IUR-Tree混合索引结构(2)基于文本信息的快速反近邻查询方法(3)对于IUR-Tree混合索引结构的改进:CIUR-Tree(4)基于CIUR-Tree提出两种优化方法。

【技术特征摘要】
1.一种基于文本信息的快速反近邻查询方法,其特征在于,提出带有空间地理位置信息及文本描述信息的基于R树的IUR-Tree索引结构。具体包括(1)创建IUR-Tree混合索引结构(2)基于文本信息的快速反近邻查询方法(3)对于IUR-Tree混合索引结构的改进CIUR-Tree(4)基于CIUR-Tree提出两种优化方法。2.基于权利要求1所述,本发明提出了一种基于R树的带有空间地理位置信息及文本信息的IUR-Tree混合索引结构。其特征在于,IUR-Tree创建方法的实现如下Al,将文档转换为格式为(di.p,di.w)的文本向量形式(TextVct); A2,选择要插入的节点;A3,将Al返回的TextVct以及MBR信息添加到A2返回的目标节点上; A4,对N节点需要分裂的情况进行进一步处理; A5,对N节点不需要分裂的情况进行进一步处理。其中,对于步骤A4,若节点需要分裂则需要判断节点是否为根节点,对于根节点,需要创建一个新的根节点,并将分裂节点添加到根节点中,并对三个节点进行相应的更新。对于非根节点的分裂,需要将分裂的节点加入N的父节点中,并对三个节点做相应的调整。其中,对于步骤5,若节点不需要分裂,则需要检查N节点的父节点是否需要做进一步调整。3.基于权利要求3所述的IUR-Tree混合索引结构所实现的“基于文本信息的快速反近邻查询方法(RSTkNN) ”,其特征在于本发明所提出的RSTkNN需要使用如下数据结构优先级队列U、剪枝列表PEL、候选对象列表C0L、查询结果对象列表R0L。算法首先需要进行初始化,然后将IUR-Tree的根节点放入队列U中。若队列U非空, 我们将队列U中具有最高优先级的记录P出列,然后对于P的每一个孩子记录E进行处理, E首先继承P的上/下边界贡献列表。之后,我们需要调用IsHitorDrop函数来判断此E是一个结果还是可以被剪枝掉。否则,我们使用Ε’(E’ e COL U ROL U U)来更新E的上下边界贡献列表,然后再次对E进行判断。之后,需要使用E对COL及U中的所有对象E’进行上下边界列表更新,并判断E’状态。如果在受到C0L、R0L、U的影响之后,E仍旧不能够确定是否是一个结果记录,那么将E添加到相应的列表或队列中。然后,继续考虑P的下一个孩子。最后,当优先队列U为空的时候,我们仍旧需要调用FinalVerification来处理COL 中的对象,以确定它们是否为查询结果。4.根据权利要求3所述的RSTkNN方法,其特征在于在加入文本描述信息之后,对象之间的相似度计算在之前的研究工作中还未曾有相关技术。因此,我们需要首先定义对象之间的相似度SimST(o,ο’ )。本发明中,我们对两个对象的相似度通过调和因子对对象之间的空间相似度及文本相似度进行调和,从而有效地将对...

【专利技术属性】
技术研发人员:陆嘉恒吕瑛丛高张林林
申请(专利权)人:陆嘉恒
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1