检索装置和检索方法制造方法及图纸

技术编号:8626064 阅读:152 留言:0更新日期:2013-04-25 23:10
本发明专利技术提供检索装置和检索方法,其中一种检索装置,用于信息检索及搜索引擎系统,包括:最小命中窗口获取模块,获取查询所用的多个关键词在文档中的最小命中窗口;全局邻近度计算模块,根据最小命中窗口的命中窗口长度,以及最小命中窗口中多个关键词的逆序对数,计算出最小命中窗口的扩展命中窗口长度,作为多个关键词的全局邻近度;位置相关性计算模块,根据全局邻近度,计算出多个关键词在文档中的位置相关性;结果生成模块,根据位置相关性,对文档进行排序,并生成检索结果。通过本发明专利技术,实现了对全局邻近度的改进,基于该改进的全局邻近度,可以计算出合理的位置相关性,以更精确以及高效地进行检索。

【技术实现步骤摘要】

本专利技术涉及信息检索领域,具体而言,涉及。
技术介绍
随着计算机技术(特别是互联网技术)的进步,电子化的信息(例如电子书籍、网页等)以爆炸式的速度增长。面对海量而又分散无序的电子化信息,人们迫切需要快速查找和定位所需信息的方法和工具。信息检索及搜索引擎系统正是为了满足人们的这种需求而产生的。一个典型的搜索引擎系统包括下载子系统(信息的搜集和获取)、预处理和索引子系统(信息的加工和组织)以及检索子系统(向用户提供查询服务)。其中,检索子系统接受用户输入的查询,按照一定的排序方法返回检索结果列表。对检索结果排序的功能由相关性排序模块完成,它是搜索引擎的核心。相关性排序模块依赖一个检索模型对文档进行打分,通常考虑的打分因素包括检索词的tfidf (即在文档中的出现频率和倒排文档频率)、网页的重要性(如PageRank)以及检索词在文档中的位置相关性(即根据查询中的关键词在文档中的出现位置和顺序打分)等。其中,位置相关性是提高搜索引擎质量的关键因素之一,因为它在很大程度上反映了查询和文档在语义上的关联性。例如,两篇文档都包含了多词查询中的所有关键词,其中文档I中命中的关键词是连在一起的,而文档2中命中的关键词是分散在两个不同的句子中出现的,显然,文档I的排名应该比文档2的更高。计算位置相关性的方法大致可以分为两类I)建立混合索引,除了索引网页中的关键词,还索引关键词N元组(n-gram)或短语,根据查询中的关键词N元组的匹配情况来计算位置相关性分数;2)只建立关键词索引,但是记录所有关键词在文档中的出现位置,然后根据某种邻近度来计算位置相关性。第一类方法不需要记录关键词的位置,空间开销相对较小。由于计算机的性能限制,早期的搜索引擎主要采取这种方式(通常只索引关键词的二元组)。该方法的缺点是关键词N元组往往只反映了局部信息。例如,在只索引二元组的情况下,对于查询“北京大学学生”,相应的关键词二元组为“北京大学”和“大学学生”。如果某个网页同时包含了“北京大学”和“大学学生”,但是两者距离很远,也就是说该网页的内容并不是直接关于“北京大学学生”的。如果直接按二元组的命中情况计算,该网页仍然具有较高的位置相关性分数。同时,该方法只在关键词N元组命中的情况下有效,例如,它并不能区分下面的情况文档I和2都包含查询“AB”中的关键词“A”和“B”,而且都不是紧邻出现的,网页I中“A”和“B”之间只间隔I个词,而网页2中“A”和“B”间隔了 100个词。另外,索引表会膨胀(即索引项的数目也大大增加),而且索引的维护和检索过程较复杂。目前存在一种基于词汇的计算机索引和检索方法,根据汉语的特点,提出了一种二元组索引的变种方法,例如,对于文档中的文字片段“上海风土人情”,分词之后的结果为“上海/风土人情”,会将“#海风”(在该专利中称为“隐形关键词”)也加入索引,在检索时如果命中了隐形关键词则加权。由于只取了相邻关键词对的前者的尾字和后者的首字作为二元组加入索引,因此,该方法的优点是在一定程度上减少索引词表大小,但是并没有避免N元组的局部性以及索引维护和检索过程复杂的缺陷。目前还存在一种方案,判断一组查询关键字或词在网页中位置相关性的方法,这也是一个二元组索引的变种,它并不索引所有的二元组索引,而是对文档中的每个关键词记录与其共现频率最闻的如向和后向的关键词,检索时若发现查询中的关键词的iu后词正好出现在其前向或后向表中则加权。该方法总体空间开销较小,其缺点是只记录了部分信息,适用面较小,只对部分查询有效。另一方面,检索时查找前向和后向表的效率也不闻。第二类方法需要记录网页中所有关键词的出现位置,空间开销比较大,计算位置相关性的时间开销也比较大。它的优点是索引结构、索引维护和检索过程都比较简单,而且比较灵活,可以支持不同的位置相关性模型。常用的邻近度(proximity measure)可分为两类全局邻近度(global proximity measure):考虑查询中所有关键词的邻近情况全局邻近度主要有最小命中窗口长度,即文档中包含所有查询关键词的最小窗口的长度。窗口命中长度的优点在于反映了查询在文档中整体的邻近情况,对短查询(2词或3词的查询)效果较好,但是对于长查询则不太适用,因为查询越长,所有关键词落在一个较小的窗口内的可能性越小。目前有一种方案,对命中窗口的定义进行了扩展,放松了所有关键词都必须出现的要求,只要包含一个以上关键词即可构成命中窗口,根据命中窗口长度和包含的关键词数对词频加权,最后通过BM25公式累计所有的加权词频。局部邻近度(local proximity measure):考虑查询中关键词对的邻近情况局部邻近度的代表是词对距离分数累加方法统计文档中的任意“邻近”两个关键词对(该词对之间不能出现任何查询中的关键词)的距离,然后根据距离折算为词频,最后把折算的词频通过BM25公式累加作为位置相关性分数(参见Y. Rasolofo and J. Savoy.Term proximity scoring for keyword-based retrieval systems.1n Proceedings ofthe 25th European Conference on IR Research (ECIR 2003), pp. 207-218, 2003)。该方法的优点是计算效率较高,考虑了多个词对距离的分数,缺点主要在于它的局部性,因为它只考虑在文档中邻近关键词之间的距离。综上所述,第一类方法(即建立N元组索引的方法)的空间和时间复杂度相对较小,但是索引的维护和检索过程较复杂。最重要的是,关键词N元组往往只反映了局部信息,对检索效果的提高有限。而第二类方法(即记录关键词位置,通过某种邻近度来计算位置相关性)空间和时间复杂度相对较大,但提高检索效果的潜力更大。在当今计算机性能大幅提高的情况下,可以满足第二类方法的空间和时间开销的需求,因此,第二类方法逐渐成为了主流。但是,目前的第二类方法仍存在各种缺陷,如命中窗口长度方法通常只考虑了所有关键词的聚集度,并没有考虑命中窗口内关键词的顺序是否与查询中的原始顺序一致,而且对于长查询的效果不好;而词对距离的方法只反映局部信息。因此,需要针对两种中的任一种主流的位置相关性方法(即命中窗口长度以及词对距离方法)存在的不足之处,提出一种新的位置相关性方案(即改进的命中窗口长度方法),能进一步地改进检索效果,同时又能保证较高的检索效率。
技术实现思路
本专利技术所要解决的技术问题在于,针对两种中的任一种主流的位置相关性方法(即命中窗口长度以及词对距离方法)存在的不足之处,提出一种新的位置相关性方案(即改进的命中窗口长度方法),能进一步地改进检索效果,同时又能保证较高的检索效率。有鉴于此,本专利技术提供一种检索装置,用于信息检索及搜索引擎系统,包括最小命中窗口获取模块,获取查询所用的多个关键词在文档中的最小命中窗口 ;全局邻近度计算模块,根据所述最小命中窗口的命中窗口长度,以及所述最小命中窗口中所述多个关键词的逆序对数,计算出所述最小命中窗口的扩展命中窗口长度,作为所述多个关键词的全局邻近度;位置相关性计算模块,根据所述全局邻近度,计算出所述多个关键词在所述文档中的位置相关性;本文档来自技高网
...

【技术保护点】
一种检索装置,其特征在于,包括:最小命中窗口获取模块,获取查询所用的多个关键词在文档中的最小命中窗口;全局邻近度计算模块,根据所述最小命中窗口的命中窗口长度,以及所述最小命中窗口中所述多个关键词的逆序对数,计算出所述最小命中窗口的扩展命中窗口长度,作为所述多个关键词的全局邻近度;位置相关性计算模块,根据所述全局邻近度,计算出所述多个关键词在所述文档中的位置相关性;结果生成模块,根据所述位置相关性,对所述文档进行排序,并生成检索结果。

【技术特征摘要】
1.一种检索装置,其特征在于,包括 最小命中窗口获取|吴块,获取查询所用的多个关键词在文档中的最小命中窗口 ;全局邻近度计算模块,根据所述最小命中窗口的命中窗口长度,以及所述最小命中窗口中所述多个关键词的逆序对数,计算出所述最小命中窗口的扩展命中窗口长度,作为所述多个关键词的全局邻近度; 位置相关性计算模块,根据所述全局邻近度,计算出所述多个关键词在所述文档中的位置相关性; 结果生成模块,根据所述位置相关性,对所述文档进行排序,并生成检索结果。2.根据权利要求1所述的检索装置,其特征在于,所述全局邻近度计算模块通过以下公式,计算出所述最小命中窗口的扩展命中窗口长度3.一种检索方法,其特征在于,包括 步骤202,最小命中窗口获取模块获取查询所用的多个关键词在文档中的最小命中窗Π ; 步骤204,全局邻近度计算模块根据所述最小命中窗口的命中窗口长度,以及所述最小命中窗口中所述多个关键词的逆序对数,计算出所述最小命中窗口的扩展命中窗口长度,作为所述多个关键词的全局邻近度; 步骤206,位置相关性计算模块根据所述全局邻近度,计算出所述多个关键词在所述文档中的位置相关性; 步骤208,结果生成模块根据所述位置相关性,对所述文档进行排序,并生成检索结果。4.根据权利要求3所述的检索方法,其特征在于,在所述步骤204中,所述全局邻近度计算模块通过以下公式,计算出所述最小命中窗口的扩展命中窗口长度 ExpSpanLen (Q, D) = OriSpanLen+ ε .1nvNum,其中,D表不所述文档,Q表不所述多个关键词,OriSpanLen表示预定命中窗口的命中窗口长度,InvNum表示所述特定命中窗口的逆序对数,ε表示预设值,ExpSpanLen (Q, D)表示所述预定命中窗口的扩展命中窗口长度。5.一种检索装置,其特征在于,包括 最小距离计算模块,计算出查询所用的多个关键词中的关键词对在文档中的最小距离; 局部邻近度计算模块,根据所述关键词对的最小距离,计算出所述多个关键词在所述文档中的几何平均最小距离,作为所述多个关键词的局部邻近度; 位置相关性计算模块,根据所述局部邻近度,计算出所述多个关键词在所述文档中的位置相关性; 结果生成模块,根据所述位置相关性,对所述文档进行排序,并生成检索结果。6.根据权利要求5所述的检索装置,其特征在于,所述局部邻近度计算模块根据以下公式,计算出所述几何平均最小距离GeoMeanMinDist(Q, D) =t εβη£) t MinDistitx, ; Z)),其中,D 表不所述文档,Q 表不所述多个关键词,t1; t2表示所述关键词对,所述关键词对表示邻近词对,MinDistCt1, t2 ;D)表示t1; t2在D中的最小距离,GeoM...

【专利技术属性】
技术研发人员:吴尉林许欢庆史献忠郭永福陈沛
申请(专利权)人:北京中搜网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1