当前位置: 首页 > 专利查询>谷歌公司专利>正文

将外部相关短语信息集成到基于短语的索引编制信息检索系统中技术方案

技术编号:5392211 阅读:229 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种信息检索系统,其使用短语来给文献编制索引、检索、组织并描述文献,分析文献并将所述分析的结果存储为短语数据。识别预测文献中的其它短语的存在的短语。根据文献中所包括的短语来对文献编制索引。还识别相关短语与扩展短语。俘获并分析用户提交的对关于文献集的现有短语数据的改变,且更新所述现有短语数据以反映通过所述分析获得的其它知识。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种信息检索系统与方法,其使用短语来对文献集中的文献编制索弓l、进行搜索、分等级及描述。所述系统适合于识别那些在文献集中具有足够频繁及/或独 特用法的短语以指示其为"有效"或"好"短语。以此方式,可识别多词短语,例如由四个、 五个或更多项组成的短语。这就避免了必须识别由给定数量的词的所有可能序列产生的每 一可能的短语并对其编制索引的问题。 该系统进一步适于基于短语预测文献中存在其它短语的能力来识别彼此相关的 短语。更具体地说,利用使两个短语的实际同时出现率与这两个短语的预期同时出现率相 关的预测度量。 一种此类预测度量是信息增益,作为实际同时出现率与预期同时出现率的 比率。在预测度量超过一预定阈值时,两个短语相关。在那种情况下,第二短语相对于第一 短语具有显著的信息增益。语义上,相关短语将是那些共同用来讨论或描述一给定主题或 概念的短语,例如"President of the United States (美国总统)"与"White House (白 宫)"。对于给定短语,相关短语可根据其相关性或有效性基于其各自的预测度量来定序。 信息检索系统通过有效或好短语来对文献集中的文献编制索引。对于每一个短 语, 一个张贴列表识别那些含有所述短语的文献。此外,对于一给定短语,使用第二列表、向 量或其它结构来存储指示在含有所述给定短语的每一文献中还存在给定短语的哪些相关短语的数据。以此方式,所述系统不仅可响应于搜索查询而容易地识别出哪些文献含有哪 些短语,而且可识别出哪些文献还含有与查询短语相关、且因此更可能特定地关于查询短 语所表示的主题或概念的短语。 使用短语与相关短语进一步提供相关短语的群集的创建和使用,相关短语的群集 在语义上代表短语的有意义的分组。从在群集中的所有短语之间具有非常高的预测度量的 相关短语来识别群集。群集可用来组织搜索结果,包括选择搜索结果中包括哪些文献及其 次序,以及从搜索结果中去除文献。 网站通常具有从几页到可能数百或数千页之间。因此,信息检索系统产生的短语 信息可用于确定每一网站的顶部短语的列表,例如网站的最具代表性的短语。这可通过检 查网站上的文献中出现的短语的相关短语信息来完成。此外,短语信息可随后通过俘获管 理员或其它经授权用户对顶部短语列表所作的改变且将所得语义知识集成到系统内已含 的短语信息中而加以补充和精细化。管理员可将其它相关短语与网站的顶部短语的任一者 相关联。已针对其接收到其它相关短语的顶部短语的相关短语信息接着经更新以包含与其 它相关短语有关的信息,且其它相关短语也经更新以包含来自顶部短语的信息。此操作以 将其它短语视为如同其存在于网站中一样。另外,其它相关短语可经更新以使用顶部短语 的相关短语信息。 本专利技术在系统与软件架构、计算机程序产品及计算机实施的方法以及计算机产生 的用户界面与呈现方面具有其它实施例。 上文仅仅是基于短语的信息检索系统与方法的一些特征。信息检索领域的技术人 员将了解,短语信息普遍性的灵活性使其能够在文献分析与处理的编制索引、文献注释、搜 索、分等级与其它领域中广泛使用与应用。附图说明 图1是本专利技术的一个实施例的软件架构的框图。 图2说明一种识别文献中的短语的方法。 图3说明具有短语窗口和二级窗口的文献。 图4说明一种识别相关短语的方法。 图5说明一种对相关短语的文献编制索引的方法。 图6说明一种基于短语检索文献的方法。 图7a和7b说明参考文献与被参考文献之间的关系。 图8说明获得并集成来自用户的短语信息输入的方法。 图9说明用于显示顶部短语并允许用户输入改变的样本用户界面。 这些图式仅是出于说明的目的而描绘本专利技术的优选实施例。所属领域的技术人员根据以下论述将容易了解,在不偏离本文所述的本专利技术的原理的情况下,可采用本文所述的结构与方法的替代实施例。具体实施例方式I.系统概述 现在参看图l,其展示了根据本专利技术的一个实施例的搜索系统100的一实施例的软件架构。在此实施例中,系统包括索引编制系统100、搜索系统120、呈现系统130和前端 服务器140。 索引系统110负责识别文献中的短语并根据其短语通过访问各种网站190与其它 文献集来对文献编制索引。前端服务器140从用户端170的用户接收查询,且向搜索系统 120提供那些查询。搜索系统120负责搜索与搜索查询相关的文献(搜索结果),包括识 别搜索查询中的任何短语,接着使用出现的短语对搜索结果中的文献分等级以影响等级次 序。搜索系统120向呈现系统130提供搜索结果。呈现系统130负责修改搜索结果(包括 除去几乎重复的文献以及产生文献的主题描述),并将经修改的搜索结果返回给前端服务 器140,其将结果提供给用户端170。系统100进一步包括用于存储关于文献的索引编制信 息的索引150和用于存储短语与相关统计信息的短语数据存储装置160。 在本申请案的上下文中,"文献"应理解为可以由搜索引擎编制索引并检索的任何 类型的媒体,包括网页文献、图像、多媒体文件、文本文献、PDF或其它图像格式的文件等等。 一个文献可以具有一个或一个以上页、分区、段或其它适合其内容与类型的组分。同等地, 文献可称为"页",其常用来指互联网上的文献。使用通用术语"文献"并不意味对本专利技术的范围进行任何限制。搜索系统ioo可对大的文献语料库进行操作,例如互联网与万维网,但其同样可用于更有限的集合中,例如用于图书馆或私营企业的文献集。在任一情形下应了 解,文献通常分布在许多不同的计算机系统与站点中。于是,在不丧失一般性的情况下,不 管格式或位置(例如,哪个网站或数据库),将文献统称为语料库或文献集。每一文献都具 有唯一识别所述文献的相关联识别符;所述识别符优选为URL,但也可以使用其它类型的 识别符(例如,文献号)。在本专利技术中,假定使用URL来识别文献。 II.索引编制系统 在一个实施例中,索引系统110提供三个主要功能性操作1)识别短语与相关短 语,2)关于短语对文献编制索引,及3)产生并维持基于短语的分类。所属领域的技术人员 将了解,在常规索引编制功能的支持下,索引编制系统110还将执行其它功能,且因此本文 不再进一步描述这些其它操作。索引编制系统110对短语数据的索引150与数据储存库 160进行操作。下文进一步描述这些数据储存库。 1.短语识别 索引编制系统110的短语识别操作识别文献集中的"好"与"坏"短语,其有助于 对文献编制索引和搜索。 一方面,好短语是那些往往出现在文献集中超过某一百分比的文 献中的短语,且/或指示为在所述文献中具有不同的外观,例如由置标标签或其它形态、格 式或语法标记来定界。好短语的另一方面是其预测其它好短语,而不仅仅是出现在词典中 的词序列。举例来说,短语"President of the United States (美国总统)"是预测例如 "George Bush (乔治 布什)"与"Bill Clinton (比尔 克林顿)"等其它短语的短语。然 而,例如"fell down the stairs"或"top of the morning"、"out of the blue,,的其它 短语不具预测性,因为如这些的成语与习语往往与许多其它不同且本文档来自技高网...

【技术保护点】
一种用于更新与有限文献集相关联的短语的方法,其包括:至少部分基于所述有限文献集的顶部短语的相关短语的存在来确定所述顶部短语的列表;接收所述顶部短语中的至少一者的替代短语;以及根据正被替代的所述顶部短语的相关短语数据更新所述替代短语的相关短语数据。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:安娜L帕特森
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1