【技术实现步骤摘要】
本专利技术涉及一种用于对诸如互联网(Internet)的大规模语料库中的文献编制索引、搜索与分类的信息检索系统。
技术介绍
信息检索系统通常称作搜索引擎,如今它们是一种用于在诸如互联网的大规模、 多样化并不断增长的语料库中寻找信息的基本工具。一般来说,搜索引擎创建索引以使文献(或“页”)与各文献中存在的个别字相关。响应一含有多个查询项的查询来检索文献, 此通常是基于在文献中存在一定数量的查询项而实现的。根据诸如查询项出现的频率、主域、链接分析等其它统计度量来对检索到的文献分等级。然后,通常按分等级后的次序将检索到的文献呈现给用户,而不进行任何其他分组或强制分级。在某些状况下,仅呈现文献文本的选定部分以便使用户能够粗略了解所述文献的内容。查询项的直接“布尔(Boolean)”匹配具有多个熟知的限制,并且尤其无法识别那些不具有查询项但具有相关字的文献。举例来说,在典型的布尔系统中,搜索“Australian Shepherds (澳大利亚牧羊犬)”时将不会返回不具有确切查询项的关于其它herding dogs (牧羊犬)(例如,Border Collies (博得牧 ...
【技术保护点】
1.一种用于响应查询而对包括在搜索结果中的文献分等级的方法,所述查询包含查询短语,所述方法包含:针对所述搜索结果中的每一个文献:存取所述查询短语的相关短语位向量,其中所述位向量中的每一位指示所述查询短语的相关短语在所述文献中是否存在,其中,所述查询短语预测所述相关短语中的每一个在所述文献集中的出现;以及通过一组相应的相关短语位向量的值来对所述搜索结果中的所述文献排序,以使得具有最高值的相关短语位向量的文献在所述搜索结果中的等级最高,从而产生经过排序的搜索结果。
【技术特征摘要】
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。