基于短语产生文献说明制造技术

技术编号：2856092 阅读：164 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种信息检索系统，其使用短语来编制索引、检索、组织并描述文献。识别预测文献中存在其它短语的短语。根据文献中所包括的短语来对文献编制索引。同时识别相关短语与扩展短语。识别并使用查询中的短语来检索文献并对文献分等级。同时使用短语来群集搜索结果中的文献、创建文献说明并从搜索结果与索引中去除重复文献。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种用于对诸如互联网(Internet)的大规模语料库中的文献编制索引、搜索与分类的信息检索系统。
技术介绍
信息检索系统通常称作搜索引擎，如今它们是一种用于在诸如互联网的大规模、多样化并不断增长的语料库中寻找信息的基本工具。一般来说，搜索引擎创建索引以使文献(或“页”)与各文献中存在的个别字相关。响应一含有多个查询项的查询来检索文献，此通常是基于在文献中存在一定数量的查询项而实现的。根据诸如查询项出现的频率、主域、链接分析等其它统计度量来对检索到的文献分等级。然后，通常按分等级后的次序将检索到的文献呈现给用户，而不进行任何其他分组或强制分级。在某些状况下，仅呈现文献文本的选定部分以便使用户能够粗略了解所述文献的内容。查询项的直接“布尔(Boolean)”匹配具有多个熟知的限制，并且尤其无法识别那些不具有查询项但具有相关字的文献。举例来说，在典型的布尔系统中，搜索“Australian Shepherds(澳大利亚牧羊犬)”时将不会返回不具有确切查询项的关于其它herding dogs(牧羊犬)(例如，Border Collies(博得牧羊犬))的文献。反而，所述系统通常可能同时检索到关于Australia(澳大利亚)(并且与dogs(狗)无关)的文献与关于“shepherds(牧羊犬)”的文献，并且将这些文献排在较高等级。这里的问题是传统的系统是根据个别项而不是概念来编制文献索引。概念通常以短语表示，如“Australian Shepherd(澳大利亚牧羊犬)”、“Presidentof the United States(美国总统)”...

【技术保护点】
一种用于自动产生一文献的一说明的方法，所述方法包括：响应一查询检索一文献，所述查询包含至少一个查询短语；为所述文献的句子确定所述至少一个查询短语在所述句子中的一计数；基于其各自的短语计数来选择复数个句子；及从所述所选句子形成所述文献的一说明。

【技术特征摘要】
US 2004-7-26 10/900,0751.一种用于自动产生一文献的一说明的方法，所述方法包括响应一查询检索一文献，所述查询包含至少一个查询短语；为所述文献的句子确定所述至少一个查询短语在所述句子中的一计数；基于其各自的短语计数来选择复数个句子；及从所述所选句子形成所述文献的一说明。2.如权利要求1所述的方法，其中所述至少一个查询短语的所述计数包含一第一计数，所述方法进一步包括确定所述查询短语的相关短语在一句子中的一第二计数；确定所述查询短语的扩展短语在一句子中的一第三计数；基于其各自的第一、第二与第三计数来选择复数个句子。3.如权利要求1所述的方法，其中所述基于其各自的短语计数来选择复数个句子的步骤包括将所述句子按照其各自的短语计数降序排列；及选择一定数量的具有所述最高短语计数的句子。4.一种用于自动产生一文献的个性化说明的...

【专利技术属性】
技术研发人员：安娜林恩帕特森，
申请(专利权)人：咕果公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人