一种基于文本信息的快速反近邻查询方法技术

技术编号：6598540 阅读：173 留言：0更新日期：2012-04-11 18:40

本发明专利技术属于信息技术领域信息检索技术，具体涉及对一种基于文本信息的快速反近邻查询方法。针对当前所提出的关于带有文本的空间信息查询方法的问题，本发明专利技术提出一种新的索引结构及查询方法，能够有效地处理含有文本描述信息的反近邻的查询。本发明专利技术通过使用一种基于R树的混合索引结构：IUR-Tree(Intersection-Union?R?Tree)来进行反近邻的查询处理，它能够综合地考虑空间对象的地理位置信息以及文本描述信息。在遍历的过程中，本发明专利技术提出了一种分支定界搜索算法，能够高效地将非目标节点剪枝，从而大大提高了查询效率。此外，我们还进一步提出了优化方法。实验表明，本发明专利技术在保证查询效果的同时，具有良好的查询效率以及扩展性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息
信息检索技术，具体涉及对。
技术介绍
反近邻查询技术用来查询那些以自己(查询点)作为k近邻(kNN)的对象。在很多产品中，它被用来发现“影响集”，也就是说查找那些受到查询节点影响较大的数据集中的对象。在之前的工作中，人们仅仅考虑空间(地理位置)因素，然而，在实际的应用中，单单考虑空间因素并不能够描述两个对象之间的相关性。例如如果两个餐馆的所经营的菜系及菜品相同的话，那么它们更容易受到影响。反之苏菜馆与川菜馆之间的相关性则会大大削弱。因此我们在反向近邻(RkNN)的查询中同时考虑了文本的相似性，并提出了一个新型的反近邻查询问题一种基于文本的反近邻(RSTkNN，Reverse Spatial and Textual k Nearest Neighbor)查询，它能够综合考虑对象的空间地理位置信息以及文本描述信息。基于文本信息的反近邻查询在查询时查找那些以自己作为k近邻的对象。这种新型的查询与之前的RkNN或空间-关键字查询(例如LkT)有很大的差别。附图说明图1给出的例子来描述了我们所提出的基于文本信息的反近邻查询以及传统反近邻查询。图1 (a)中的点pi. . . p9是某个区域中的分店，查询q是打算开的新分店。Ni. . . N7 指的是最小边界矩形(MBR，Minimal bound rectangle)。其中，每一家分店所卖的商品我们在图1(b)中给出，并且每一类商品所占的权重我们可以通过TF-IDF来进行计算。我们使用q作为基于文本信息的反近邻查询的输入对象，那么此查询将会返回现有的商店中受到 q的位置以及所卖商品影响...

【技术保护点】
１．一种基于文本信息的快速反近邻查询方法，其特征在于，提出带有空间地理位置信息及文本描述信息的基于Ｒ树的ＩＵＲ－Ｔｒｅｅ索引结构。具体包括：（１）创建ＩＵＲ－Ｔｒｅｅ混合索引结构（２）基于文本信息的快速反近邻查询方法（３）对于ＩＵＲ－Ｔｒｅｅ混合索引结构的改进：ＣＩＵＲ－Ｔｒｅｅ（４）基于ＣＩＵＲ－Ｔｒｅｅ提出两种优化方法。

【技术特征摘要】
1.一种基于文本信息的快速反近邻查询方法，其特征在于，提出带有空间地理位置信息及文本描述信息的基于R树的IUR-Tree索引结构。具体包括(1)创建IUR-Tree混合索引结构(2)基于文本信息的快速反近邻查询方法(3)对于IUR-Tree混合索引结构的改进CIUR-Tree(4)基于CIUR-Tree提出两种优化方法。2.基于权利要求1所述，本发明提出了一种基于R树的带有空间地理位置信息及文本信息的IUR-Tree混合索引结构。其特征在于，IUR-Tree创建方法的实现如下Al，将文档转换为格式为(di.p，di.w)的文本向量形式(TextVct)； A2，选择要插入的节点；A3，将Al返回的TextVct以及MBR信息添加到A2返回的目标节点上； A4，对N节点需要分裂的情况进行进一步处理； A5，对N节点不需要分裂的情况进行进一步处理。其中，对于步骤A4，若节点需要分裂则需要判断节点是否为根节点，对于根节点，需要创建一个新的根节点，并将分裂节点添加到根节点中，并对三个节点进行相应的更新。对于非根节点的分裂，需要将分裂的节点加入N的父节点中，并对三个节点做相应的调整。其中，对于步骤5，若节点不需要分裂，则需要检查N节点的父节点是否需要做进一步调整。3.基于权利要求3所述的IUR-Tree混合索引结构所实现的“基于文本信息的快速反近邻查询方法(RSTkNN) ”，其特征在于本发明所提出的RSTkNN需要使用如下数据结构优先级队列U、剪枝列表PEL、候选对象列表C0L、查询结果对象列表R0L。算法首先需要进行初始化，然后将IUR-Tree的根节点放入队列U中。若队列U非空，我们将队列U中具有最高优先级的记录P出列，然后对于P的每一个孩子记录E进行处理， E首先继承P的上/下边界贡献列表。之后，我们需要调用IsHitorDrop函数来判断此E是一个结果还是可以被剪枝掉。否则，我们使用Ε’(E’ e COL U ROL U U)来更新E的上下边界贡献列表，然后再次对E进行判断。之后，需要使用E对COL及U中的所有对象E’进行上下边界列表更新，并判断E’状态。如果在受到C0L、R0L、U的影响之后，E仍旧不能够确定是否是一个结果记录，那么将E添加到相应的列表或队列中。然后，继续考虑P的下一个孩子。最后，当优先队列U为空的时候，我们仍旧需要调用FinalVerification来处理COL 中的对象，以确定它们是否为查询结果。4.根据权利要求3所述的RSTkNN方法，其特征在于在加入文本描述信息之后，对象之间的相似度计算在之前的研究工作中还未曾有相关技术。因此，我们需要首先定义对象之间的相似度SimST(o，ο’ )。本发明中，我们对两个对象的相似度通过调和因子对对象之间的空间相似度及文本相似度进行调和，从而有效地将对...

【专利技术属性】
技术研发人员：陆嘉恒，吕瑛，丛高，张林林，
申请(专利权)人：陆嘉恒，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人