【技术实现步骤摘要】
本专利技术涉及信息检索领域,具体而言,涉及。
技术介绍
随着计算机技术(特别是互联网技术)的进步,电子化的信息(例如电子书籍、网页等)以爆炸式的速度增长。面对海量而又分散无序的电子化信息,人们迫切需要快速查找和定位所需信息的方法和工具。信息检索及搜索引擎系统正是为了满足人们的这种需求而产生的。一个典型的搜索引擎系统包括下载子系统(信息的搜集和获取)、预处理和索引子系统(信息的加工和组织)以及检索子系统(向用户提供查询服务)。其中,检索子系统接受用户输入的查询,按照一定的排序方法返回检索结果列表。对检索结果排序的功能由相关性排序模块完成,它是搜索引擎的核心。相关性排序模块依赖一个检索模型对文档进行打分,通常考虑的打分因素包括检索词的tfidf (即在文档中的出现频率和倒排文档频率)、网页的重要性(如PageRank)以及检索词在文档中的位置相关性(即根据查询中的关键词在文档中的出现位置和顺序打分)等。其中,位置相关性是提高搜索引擎质量的关键因素之一,因为它在很大程度上反映了查询和文档在语义上的关联性。例如,两篇文档都包含了多词查询中的所有关键词,其中文档I中命中的关键词是连在一起的,而文档2中命中的关键词是分散在两个不同的句子中出现的,显然,文档I的排名应该比文档2的更高。计算位置相关性的方法大致可以分为两类I)建立混合索引,除了索引网页中的关键词,还索引关键词N元组(n-gram)或短语,根据查询中的关键词N元组的匹配情况来计算位置相关性分数;2)只建立关键词索引,但是记录所有关键词在文档中的出现位置,然后根据某种邻近度来计算位置相关性。第一类方法不需要 ...
【技术保护点】
一种检索装置,其特征在于,包括:最小命中窗口获取模块,获取查询所用的多个关键词在文档中的最小命中窗口;全局邻近度计算模块,根据所述最小命中窗口的命中窗口长度,以及所述最小命中窗口中所述多个关键词的逆序对数,计算出所述最小命中窗口的扩展命中窗口长度,作为所述多个关键词的全局邻近度;位置相关性计算模块,根据所述全局邻近度,计算出所述多个关键词在所述文档中的位置相关性;结果生成模块,根据所述位置相关性,对所述文档进行排序,并生成检索结果。
【技术特征摘要】
1.一种检索装置,其特征在于,包括 最小命中窗口获取|吴块,获取查询所用的多个关键词在文档中的最小命中窗口 ;全局邻近度计算模块,根据所述最小命中窗口的命中窗口长度,以及所述最小命中窗口中所述多个关键词的逆序对数,计算出所述最小命中窗口的扩展命中窗口长度,作为所述多个关键词的全局邻近度; 位置相关性计算模块,根据所述全局邻近度,计算出所述多个关键词在所述文档中的位置相关性; 结果生成模块,根据所述位置相关性,对所述文档进行排序,并生成检索结果。2.根据权利要求1所述的检索装置,其特征在于,所述全局邻近度计算模块通过以下公式,计算出所述最小命中窗口的扩展命中窗口长度3.一种检索方法,其特征在于,包括 步骤202,最小命中窗口获取模块获取查询所用的多个关键词在文档中的最小命中窗Π ; 步骤204,全局邻近度计算模块根据所述最小命中窗口的命中窗口长度,以及所述最小命中窗口中所述多个关键词的逆序对数,计算出所述最小命中窗口的扩展命中窗口长度,作为所述多个关键词的全局邻近度; 步骤206,位置相关性计算模块根据所述全局邻近度,计算出所述多个关键词在所述文档中的位置相关性; 步骤208,结果生成模块根据所述位置相关性,对所述文档进行排序,并生成检索结果。4.根据权利要求3所述的检索方法,其特征在于,在所述步骤204中,所述全局邻近度计算模块通过以下公式,计算出所述最小命中窗口的扩展命中窗口长度 ExpSpanLen (Q, D) = OriSpanLen+ ε .1nvNum,其中,D表不所述文档,Q表不所述多个关键词,OriSpanLen表示预定命中窗口的命中窗口长度,InvNum表示所述特定命中窗口的逆序对数,ε表示预设值,ExpSpanLen (Q, D)表示所述预定命中窗口的扩展命中窗口长度。5.一种检索装置,其特征在于,包括 最小距离计算模块,计算出查询所用的多个关键词中的关键词对在文档中的最小距离; 局部邻近度计算模块,根据所述关键词对的最小距离,计算出所述多个关键词在所述文档中的几何平均最小距离,作为所述多个关键词的局部邻近度; 位置相关性计算模块,根据所述局部邻近度,计算出所述多个关键词在所述文档中的位置相关性; 结果生成模块,根据所述位置相关性,对所述文档进行排序,并生成检索结果。6.根据权利要求5所述的检索装置,其特征在于,所述局部邻近度计算模块根据以下公式,计算出所述几何平均最小距离GeoMeanMinDist(Q, D) =t εβη£) t MinDistitx, ; Z)),其中,D 表不所述文档,Q 表不所述多个关键词,t1; t2表示所述关键词对,所述关键词对表示邻近词对,MinDistCt1, t2 ;D)表示t1; t2在D中的最小距离,GeoM...
【专利技术属性】
技术研发人员:吴尉林,许欢庆,史献忠,郭永福,陈沛,
申请(专利权)人:北京中搜网络技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。