【技术实现步骤摘要】
本专利技术涉及一种用于对诸如互联网(Internet)的大规模语料库中的文献编制索引、搜索与分类的信息检索系统。
技术介绍
信息检索系统通常称作搜索引擎,如今它们是一种用于在诸如互联网的大规模、多样化并不断增长的语料库中寻找信息的基本工具。一般来说,搜索引擎创建索引以使文献(或“页”)与各文献中存在的个别字相关。响应一含有多个查询项的查询来检索文献,此通常是基于在文献中存在一定数量的查询项而实现的。根据诸如查询项出现的频率、主域、链接分析等其它统计度量来对检索到的文献分等级。然后,通常按分等级后的次序将检索到的文献呈现给用户,而不进行任何其他分组或强制分级。在某些状况下,仅呈现文献文本的选定部分以便使用户能够粗略了解所述文献的内容。查询项的直接“布尔(Boolean)”匹配具有多个熟知的限制,并且尤其无法识别那些不具有查询项但具有相关字的文献。举例来说,在典型的布尔系统中,搜索“Australian Shepherds(澳大利亚牧羊犬)”时将不会返回不具有确切查询项的关于其它herding dogs(牧羊犬)(例如,BorderCollies(博得牧羊犬))的 ...
【技术保护点】
一种用于识别一文献库中的有效短语的计算机实施方法,所述方法包括:从所述文献库中的文献收集可能短语;根据每个可能短语的出现频率将所述每个可能短语归类为一好短语或一坏短语;及仅选择性地保留预测所述文献库中出现至少一个其它好短语的好短语。
【技术特征摘要】
US 2004-7-26 10/900,0211.一种用于识别一文献库中的有效短语的计算机实施方法,所述方法包括从所述文献库中的文献收集可能短语;根据每个可能短语的出现频率将所述每个可能短语归类为一好短语或一坏短语;及仅选择性地保留预测所述文献库中出现至少一个其它好短语的好短语。2.如权利要求1所述的方法,其中所述收集可能短语的步骤包括用一个多字短语窗口来遍历一文献的各字,并且选择在所述窗口中以所述窗口中的一第一字开始的字的所有序列作为候选短语。3.如权利要求2所述的方法,其中所述短语窗口包括至少4个字。4.如权利要求1所述的方法,其中所述收集可能短语的步骤包括为每个可能短语与每个好短语保存含有所述短语的文献数的一频率计数;为每个可能短语与每个好短语保存所述短语的实例数的一频率计数;及为每个可能短语与每个好短语保存所述短语的独特实例数的一频率计数。5.如权利要求4所述的方法,其中一短语的一独特实例包括一个与所述文献中的相邻内容的不同之处在于语法或格式标记的短语。6.如权利要求1所述的方法,其中所述将每个可能短语归类为一好短语或一坏短语的步骤包括在一可能短语出现在最小数量的文献中并且在所述文献库中出现最小数量的实例时,将所述可能短语归类为一好短语。7.如权利要求1所述的方法,其中所述将每个可能短语归类为一好短语或一坏短语的步骤包括在一可能短语出现在所述文献库中的最小数量的独特实例中时,将所述可能短语归类为一好短语。8.如权利要求1所述的方法,其中所述选择性地保留预测所述文献库中出现至少一个其它好短语的好短语的步骤包括如果所述好短语相对于至少一个其它好短语的信息增益超过一大于1的阈值,那就保留所述好短语。9.如权利要求8所述的方法,其中一好短语gj相对于另一好短语gk的所述信息增益为I(j,k)=A(j,k)/E(j,k)其中,A(j,k)是gj与gk的实际同时出现率;且E(j,k)是gj与gk的预期同时出现率。10.如权利要求9所述的方法,其中当好短语gj与gk位于彼此的预定数量的字中时,好短语gj与gk同时出现在一文献中。11.如权利要求1所述的方法,其中所述保留预测所述文献库中出现至少一个其它好短语的好短语的步骤包括除去一个相对于复数个其它好短语的信息增益小于一预定阈值的好短语。12.如权利要求1所述的方法,其进一步包括从所述好短语中除去不完整短语。13.如权利要求12所述的方法,其中一个不完整短语是一个仅预测其扩展短语的短语,并且其中一短语的一扩展短语是以所述短语开始的所述短语的一超序列。14.如权利要求12所述的方法,其进一步包括为每个不完整短语保存所述不完整短语的至少一个扩展短语;及响应...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。