当前位置: 首页 > 专利查询>咕果公司专利>正文

信息检索系统中基于短语的索引编制方法和系统技术方案

技术编号:2856095 阅读:235 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种信息检索系统,其使用短语来编制索引、检索、组织并描述文献。识别预测文献中存在其它短语的短语。根据文献中所包括的短语来对文献编制索引。同时识别相关短语与扩展短语。识别并使用查询中的短语来检索文献并对文献分等级。同时使用短语来群集搜索结果中的文献、创建文献说明并从搜索结果与索引中去除重复文献。

【技术实现步骤摘要】

本专利技术涉及一种用于对诸如互联网(Internet)的大规模语料库中的文献编制索引、搜索与分类的信息检索系统。
技术介绍
信息检索系统通常称作搜索引擎,如今它们是一种用于在诸如互联网的大规模、多样化并不断增长的语料库中寻找信息的基本工具。一般来说,搜索引擎创建索引以使文献(或“页”)与各文献中存在的个别字相关。响应一含有多个查询项的查询来检索文献,此通常是基于在文献中存在一定数量的查询项而实现的。根据诸如查询项出现的频率、主域、链接分析等其它统计度量来对检索到的文献分等级。然后,通常按分等级后的次序将检索到的文献呈现给用户,而不进行任何其他分组或强制分级。在某些状况下,仅呈现文献文本的选定部分以便使用户能够粗略了解所述文献的内容。查询项的直接“布尔(Boolean)”匹配具有多个熟知的限制,并且尤其无法识别那些不具有查询项但具有相关字的文献。举例来说,在典型的布尔系统中,搜索“Australian Shepherds(澳大利亚牧羊犬)”时将不会返回不具有确切查询项的关于其它herding dogs(牧羊犬)(例如,BorderCollies(博得牧羊犬))的文献。反而,所述系统本文档来自技高网...

【技术保护点】
一种用于对一文献库中的文献编制索引的方法,所述方法包括:提供一短语列表;为一给定文献识别在所述文献中的每个短语;为所述文献中的每个短语识别一个同样存在于所述文献中的相关短语;及为所述文献中的每个短语,将所述文 献的一识别符与同样存在于所述文献中的每个相关短语的一指示存储在所述短语的一记入列表中。

【技术特征摘要】
US 2004-7-26 10/900,0551.一种用于对一文献库中的文献编制索引的方法,所述方法包括提供一短语列表;为一给定文献识别在所述文献中的每个短语;为所述文献中的每个短语识别一个同样存在于所述文献中的相关短语;及为所述文献中的每个短语,将所述文献的一识别符与同样存在于所述文献中的每个相关短语的一指示存储在所述短语的一记入列表中。2.如权利要求1所述的方法,其中对于每个...

【专利技术属性】
技术研发人员:安娜林恩帕特森
申请(专利权)人:咕果公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1