当前位置: 首页 > 专利查询>GOOGLE公司专利>正文

用于识别web文档的方法和系统技术方案

技术编号:2837138 阅读:224 留言:0更新日期:2012-04-11 18:40
一种系统,识别文档,执行搜索以识别与同该文档关联的属性相关的web文档,并提供与所述web文档关联的信息和该文档。

【技术实现步骤摘要】
【国外来华专利技术】
符合本专利技术原理的系统与方法一般涉及信息检索,更具体而言,涉及提供与特定文档相关的信息。
技术介绍
现代计算机网络,尤其是因特网,使得大量信息能够广泛地且容易地获得。例如,免费因特网搜索引擎标引(index)出了链接至因特网的成千上万的web文档。连接至因特网的用户可以输入简单的搜索查询以快速地定位与该搜索查询相关的web文档。然而,在因特网上不能广泛获得的一类内容包括更传统的作者印刷作品,例如书籍和杂志。使这些作品能够以数字方式获得的阻碍在于难以将作品的印刷版本转换为数字形式。光学字符识别(OCR)(它是使用光学扫描设备生成接下来转换为计算机可读格式(例如ASCII文件)的字符的文本图像的动作),是将印刷文本转换为可用数字形式的已知技术。OCR系统一般包括用于生成印刷页面图像的光学扫描仪,以及用于分析该图像的软件。
技术实现思路
根据一个方面,一种方法可以包括接收搜索查询;基于该搜索查询执行第一搜索以识别文档;基于与该文档关联的属性执行第二搜索;并呈现第二搜索的结果。根据另一方面,一种系统可以包括存储指令的存储器和执行这些指令的处理器。该系统可以识别文档,执行搜索以识别带有与该文档关联的属性相关的信息的web文档,并呈现与该web文档关联的信息。根据又一方面,计算机可读媒体中体现的图形用户界面可以包括到文档各部分的一组链接,文档内容的描述,以及与该文档关联的著录信息。该图形用户界面还可以包括用于使web文档的搜索得以执行的链接,该web文档带有与该文档关联的属性相关的信息。根据再一方面,一种方法可以包括接收来自用户的文档标识;自动执行多个搜索以识别与该文档关联的属性相关的web文档;并向用户提供与这些web文档关联的信息。根据又一方面,一种计算机可读媒体可以包含计算机可执行指令,这些计算机可执行指令包括用于识别文档的指令,用于执行搜索以识别带有与该文档关联的属性相关的信息的web文档的指令,用于从这些web文档提取信息的指令,以及用于呈现所提取的信息以及与该文档关联的信息的指令。附图说明并入本说明书并构成其一部分的附图,图示了本专利技术的实施例,并且与说明书一起对本专利技术进行解释。在附图中,图1是其中可以实现符合本专利技术原理的系统和方法的网络的示例图;图2是根据符合本专利技术原理的实现方式,图1的客户端或服务器的示例图;图3A-3D是根据符合本专利技术原理的某些实现方式,用于呈现与同文档相关的web文档有关的信息的示例处理的流程图;图4是根据符合本专利技术原理的一种实现方式,其中可以以搜索结果形式呈现与文档关联的信息的图形用户界面的示例图;图5是根据符合本专利技术原理的一种实现方式,呈现与文档关联的引用页面的示例图;图6是根据符合本专利技术原理的一种实现方式,其中可以呈现与web文档关联的信息的图形用户界面的示例图;图7是根据符合本专利技术原理的另一实现方式,引用页面部分的示例图;图8是根据符合本专利技术原理的又一实现方式,引用页面部分的示例图;图9是根据符合本专利技术原理的替代实现方式,其中可以以搜索结果形式呈现与文档关联的信息的图形用户界面的示例图;以及图10A和图10B是根据符合本专利技术原理的两种不同实现方式,其中可以呈现相关信息的图形用户界面的示例图。具体实施例方式本专利技术的下述详细描述参照附图。不同附图中相同的附图标记可以识别相同或类似的元素。同样,下述详细描述并不限制本专利技术。总述越来越多类型的文档可以通过搜索引擎来进行搜索。例如,某些文档(诸如书籍、杂志、和/或目录)可以被扫描,并且它们的文本可以通过OCR进行识别。对这些文档进行更多了解,并使得该附加信息可以被用户获得是有益的。符合本专利技术原理的系统和方法可以自动地对与同文档关联的一个或多个属性(也称作“文档属性”)相关的附加信息进行搜索,并与该文档关联地提供该附加信息。示例性网络配置图1是其中可以实现符合本专利技术原理的系统和方法的网络100的示例图。网络100可以包括通过网络150连接至多个服务器120-140的多个客户端110。为了简便起见,将两个客户端110和三个服务器120-140图示为连接至网络150。实际上,可以有更多或更少的客户端和服务器。同样,在某些实例中,客户端也可以执行服务器的功能,而服务器也可以执行客户端的功能。客户端110可以包括客户端实体。实体可以定义为诸如无线电话、个人计算机、个人数字助理(PDA)、膝上型电脑,或其他类型的计算或通信设备的设备,在这些设备之一上运行的线程或进程,和/或可由这些设备之一执行的对象。服务器120-140可以包括以符合本专利技术原理的方式来采集、处理、搜索,和/或保存文档的服务器实体。在符合本专利技术原理的一种实现方式中,服务器120可以包括客户端110可以使用的搜索引擎125。服务器120可以爬过(crawl)文档大全(corpus)(例如web文档),标引这些文档,并且在文档仓库中存储与这些文档关联的信息。替代地或另外地,服务器120可以分析文档(例如书籍、杂志、报纸、文章、目录等)的数据库(或数据库集),并且在相同仓库或不同仓库中存储与这些文档关联的信息。服务器130和140可以存储或保存可以由服务器120爬过或分析的文档。尽管将服务器120-140示为分立实体,服务器120-140中的一个或多个有可能执行服务器120-140中另一个或另外多个的一个或多个功能。例如,服务器120-140中的两个或更多可能实现为单一服务器。服务器120-140中的单独一个还可能实现为两个或更多分立(并且可能是分布式)设备。网络150可以包括局域网(LAN),广域网(WAN),诸如公用交换电话网(PSTN)的电话网络,内联网,因特网,存储设备,或网络组合。客户端110和服务器120-140可以通过有线、无线,和/或光连接与网络150连接。作为此处使用的术语,“文档”广泛地解释为包括任何传统的作者印刷作品,诸如书籍、杂志、目录、报纸、文章等等。作为此处使用的术语,“web文档”广泛地解释为包括可以通过网络(如网络150)获得的任何机器可读的且机器可存储的作品产品。例如,Web文档可以包括web站点,文件,文件组合,带有到其他文件的嵌入式链接的一个或多个文件,新闻组张贴版,博客(blog),web广告等等。在因特网的情境里,通常的web文档是网页。网页经常包括文本信息,并且可以包括嵌入式信息(例如元信息、图像、超链接等)和/或嵌入式指令(例如Java脚本等)。最为此处使用的术语,“链接”广泛地解释为包括对或来自web文档的任何引用。示例性客户端/服务器架构图2是根据符合本专利技术原理的实现方式,可对应于客户端110和服务器120-140中一个或多个的客户端或服务器实体(下文中称作“客户端/服务器实体”)的示例图。客户端/服务器实体可以包括总线210,处理器220,主存储器230,只读存储器(ROM)240,存储设备250,输入设备260,输出设备270,以及通信接口280。总线210可以包括允许客户端/服务器实体的元件之间进行通信的路径。处理器220可以包括常规处理器,微处理器,或解译且执行指令的处理逻辑。主存储器230可以包括可以存储由处理器220执行的信息和指令的随机访问存储器(RAM)或其他类型的动态存储设备。ROM240可以包括可以存储由本文档来自技高网...

【技术保护点】
一种方法,包括:接收搜索查询;基于该搜索查询执行第一搜索以识别文档;基于与该文档关联的属性执行第二搜索;以及呈现第二搜索的结果。

【技术特征摘要】
【国外来华专利技术】US 2004-9-30 10/953,1121.一种方法,包括接收搜索查询;基于该搜索查询执行第一搜索以识别文档;基于与该文档关联的属性执行第二搜索;以及呈现第二搜索的结果。2.根据权利要求1的方法,其中执行第二搜索的步骤包括接收该文档的选择,以及响应于该文档的选择,执行第二搜索。3.根据权利要求1的方法,其中执行第二搜索的步骤包括接收该文档的选择,呈现与该文档关联的引用页面,该引用页面包括与属性关联的多个链接,接收这些链接之一的选择,以及响应于这些链接之一的所述选择,执行第二搜索。4.根据权利要求1的方法,其中呈现第二搜索的结果的步骤包括识别与属性相关的web文档,从该web文档中提取信息,以及呈现所提取的信息。5.根据权利要求1的方法,其中呈现第二搜索的结果的步骤包括将web文档识别为第二搜索的结果,生成所述web文档的得分,基于所述得分对web文档进行分类,以及呈现分类后的web文档。6.根据权利要求5的方法,其中生成所述web文档的得分的步骤包括生成所述web文档的信息检索得分,生成所述web文档的基于链接的得分,以及基于信息检索得分和基于链接的得分,生成所述web文档的总体得分。7.根据权利要求1的方法,还包括呈现与该文档关联的引用页面,该引用页面包括与带有与属性相关的信息的web文档的搜索关联的链接。8.根据权利要求7的方法,其中链接的选择使得第二搜索得以执行。9.根据权利要求7的方法,其中所述引用页面还包括以下中的至少之一该文档的内容的描述,与同该文档关联的封皮、封皮页或封皮内折边之一关联的文本,与该文档关联的著录信息,或广告。10.根据权利要求7的方法,其中所述引用页面还包括来自该文档的摘录,和到该文档各部分的一组链接。11.根据权利要求10的方法,其中所述摘录包括来自该文档的一部分文本的图像。12.根据权利要求10的方法,其中该组链接引用以下中的至少之一与该文档关联的封面,与该文档关联的内容表,与该文档关联的索引,或与该文档关联的封底。13.根据权利要求1的方法,其中呈现第二搜索的结果的步骤包括呈现与该文档关联的引用页面,该引用页面包括到带有与所述属性相关的信息的web文档的链接。14.根据权利要求13的方法,其中该链接通过执行第二搜索而生成。15.根据权利要求13的方法,其中所述引用页面还包括以下中的至少之一该文档的内容的描述,与同该文档关联的封皮、封面或封皮内折边之一关联的...

【专利技术属性】
技术研发人员:舍拉佳哈利克威廉姆C布鲁格赫
申请(专利权)人:GOOGLE公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1