当前位置: 首页 > 专利查询>谷歌公司专利>正文

用于改进对网页的信息检索的系统和方法技术方案

技术编号:2912963 阅读:216 留言:0更新日期:2012-04-11 18:40
可以处理网站的网页来改进搜索结果。例如,可以识别可能与其所直接关联的网页之外的网页有关的信息。也识别这样的信息可能与之有关的一个或多个其它相关网页。将所识别的信息与所识别的其它网页相关联并且以影响网页的搜索结果分值的方式保存该关联。

【技术实现步骤摘要】
【国外来华专利技术】§1.1 
符合本专利技术的实施例涉及信息检索(IR)。具体地,符合本专利技术的实施例涉及改进诸如网页的文档的信息检索,所述文档属于诸如网站的多组文档中的一组。§1.2 
技术介绍
搜索引擎在帮助人们在万维网(“Web”)以及其它网络上找到感兴趣的信息方面已非常有用。在澳大利亚布里斯班举行的SeventhInternational World Wide Web Conference(第七届国际万维网会议)上S.Brin和L.Page发表的论文“Anatomy of a Large-Scale HypertextualSearch Engine(剖析大规模超文本搜索引擎)”和美国专利No.6,285,999中(两者在此均以引用的方式并入)描述了示例性搜索引擎。搜索引擎可以接收对搜索结果的查询。作为响应,搜索引擎可以(例如从网页的索引中)检索相关搜索结果。这样的搜索结果可以包括例如网页标题的列表、从这些网页中提取的文本的摘录以及指向这些网页的超文本链接,并且可以将所述搜索结果分组为预定数量(例如10)的搜索结果。图1是可以包括网络(诸如因特网)160的环境100的上层框图,其中使用信息访问工具(facility)(客户端设备)110来呈现从一个或多个内容提供者(例如网页服务器)180处访问的信息。搜索工具(服务器)130可以被信息访问工具110使用来搜索感兴趣的内容。信息访问工具110可以包括浏览操作112,其可以包括导航操作114和用户接口操作116。浏览操作112可以经由输入/输出接口操作118来访问网络160。例如,在个人计算机的情况中,浏览操作112可-->以通过浏览器(诸如Mozilla公司的Firefox、美国在线时代华纳公司的Netscape、Opera软件公司的Opera、微软公司的Explorer等等)来执行,并且输入/输出接口操作可以通过调制解调器或网络接口卡(或NIC)和联网软件来执行。可能的信息访问工具110的其它示例包括诸如个人数字助理(PDA)和移动电话的无绳(untethered)设备、机顶盒、信息站(kiosk)、媒体播放器等等。每一个内容提供者180可以包括存储资源(也称为内容)136、响应于请求访问并提供内容的资源检索操作184、以及输入/输出接口操作182。内容提供者180的这些操作可以由诸如个人计算机或服务器的计算机实现。因此,存储资源186可以具体化为存储在诸如磁盘、光盘等等的某种类型的存储介质上的数据。在该具体环境100中,术语“文档”可以被解释为包括诸如网页的可寻址内容。搜索工具130可以执行爬行(crawl)、索引/排序以及查询处理功能。这些功能可以通过相同实体或单独实体来执行。此外,这些功能可以在同一位置处或在不同位置处执行。在任何情况下,在爬行工具150处,爬行操作152从经由网络160可访问的各种源获得内容,并且存储这样的内容或这样的内容的表格(form),如154所指示。然后,在自动索引/排序工具140处,自动索引/排序操作142可以访问存储内容154,并且可以生成内容索引(例如待在下面描述的倒序索引)和内容评级(例如待在下面描述的PageRank(页面排名))140。最后,查询处理操作134接受查询并且基于内容索引(以及内容评级)140返回查询结果。爬行、索引/排序以及查询处理功能可以通过一个或多个计算机来执行。图2是高级搜索工具200的过程气泡图。在图2中示出的高级搜索工具200执行三个主要功能:(1)爬行;(2)索引/排序;以及(3)搜索。水平虚线将图2划分为对应于这三个主要功能的三个部分。更具体地,第一部分150’与爬行功能相对应、第二部分140’与索引/-->排序功能相对应以及第三部分134’与搜索(或查询处理)功能相对应(注意,在引用数字后的撇号“’”用于指示引用项仅是由没有撇号的该数字引用的项的一个示例)。这些部分的每一部分将在下面更详细地介绍。然而,在这样做之前,介绍了该高级搜索工具200的几个区别特征。该高级搜索工具使用Web的链接结构以及其它技术来改进搜索结果。仍参见图2,现进一步描述高级搜索引擎200的三个主要部分。爬行部分150’可以分布在多个机器上。单个URL服务器(未示出)向多个爬行器(crawler)派发统一资源定位符(URL)列表206。基于该URL列表206,爬行操作202爬行网络160’并获得网页208。预索引操作210然后可以从这些网页208生成页面排名212以及库214。页面排名212可以包括作为成对的多个URL指纹(即唯一值)、页面排名值。库214可以包括URL、内容类型和压缩的页面三元组。关于索引/排序部分140’,索引/排序操作220可以生成倒序索引226。索引/排序操作220也可以从引文(citation)排名212生成页面排名228。页面排名228可以包括文档ID、PageRank值对。关于查询处理部分134’,搜索操作230可以由Web服务器运行并且可以与倒序索引226和PageRank 228一起使用词典232来响应于查询而生成查询结果。查询结果可以是基于以下的组合:(1)从PageRank 228得出的信息,以及(2)从特定文档与包含在查询中的词语相匹配的紧密程度得出的信息(也称为信息检索(或“IR”)组件)。这样的搜索引擎(诸如刚介绍的搜索引擎)一直是有用的,但也存在改进的空间。例如,考虑下面的两种(2)情况。首先,考虑搜索查询“Ramada Cincinnati(华美达辛辛那提)”。本专利技术的专利技术人认为最具权威性及最有用的搜索结果应是在华美达网-->站上的描述华美达在辛辛那提市区的旅馆的网页。因此,希望将该网页(关于其的信息以及指向其的链接)作为第一搜索结果返回。遗憾的是,虽然存在指示华美达网站的主网页对于单词“Ramada(华美达)”具有权威性的许多证据,但是用于华美达在辛辛那提市区的特定旅馆的网页对于单词“Ramada(华美达)”具有权威性的证据可能极少。因此,处理该搜索“Ramada Cincinnati(华美达辛辛那提)”的至少一些搜索引擎将把华美达网站的主网页作为第一搜索结果返回,即使其可能不如在华美达网站上的用于华美达在辛辛那提市区的旅馆的网页有用。更糟的是,至少一些搜索引擎可能不会将华美达网站上的任何网页作为其最佳搜索结果之一返回。其次,考虑搜索查询“three seasons palo alto(三季帕洛阿尔托)”。在该示例中,“Three Seasons(三季)”餐馆的网站的主网页不包括餐馆的地址。因而,尽管存在该餐馆的网站的主网页对三季具有权威性的许多证据,但是在该主网页上没有证据暗示其与帕洛阿尔托有关。注意,该网站上的其它网页确实指示该餐馆位于帕洛阿尔托。如前述示例说明,仅使用直接与网页有关的信息(例如,在网页和其结构上的单词、在指向网页的锚点(anchor)中的单词、以及网页的页面排名)的自动搜索引擎可能找不到对特定查询最有用的网页。因而,改进搜索引擎使得其返回更好的搜索结果是有用的。具体地,以下是有用的,改进搜索引擎(例如,通过改进其处理的信息),使得当搜索引擎对查询的词语(例如单词和/或短语)与一个网页的相关性进行排名时,其可以考本文档来自技高网...

【技术保护点】
一种计算机实现的方法,包括: a)接受与网站有关的信息; b)识别与所述网站的第一网页有关的词语,所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关; c)确定与所述第一网页具有特定关系的所述网站的第二网页; d)确定是否应当将所识别的词语与所述第二网页相关联;以及 e)如果确定应当将所述词语与所述第二网页相关联,则保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的词语的搜索查询将具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值。

【技术特征摘要】
【国外来华专利技术】US 2006-3-31 11/396,3011.一种计算机实现的方法,包括:a)接受与网站有关的信息;b)识别与所述网站的第一网页有关的词语,所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关;c)确定与所述第一网页具有特定关系的所述网站的第二网页;d)确定是否应当将所识别的词语与所述第二网页相关联;以及e)如果确定应当将所述词语与所述第二网页相关联,则保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的词语的搜索查询将具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值。2.如权利要求1所述的计算机实现的方法,其中确定是否应当将所述词语与所述第二网页相关联的所述动作包括:1)使用对第一组信息的第一测试来确定所述词语是否可能与所述第二网页有关,以及2)如果确定所述词语可能与所述第二网页有关,则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联。3.如权利要求1所述的计算机实现的方法,其中使用除所述特定关系外的证据来识别与所述网站的第一网页有关的所述词语,所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关。4.如权利要求3所述的计算机实现的方法,其中所述特定关系是在两个网页之间存在的链接。5.如权利要求1所述的计算机实现的方法,其中识别词语的所述动作识别与所述网站极度相关联的词语。6.如权利要求5所述的计算机实现的方法,其中所述词语是搜索查询词语,并且其中识别与所述网站极度相关联的搜索查询词语的所述动作使用过去的用户搜索查询和对与所述网站相对应的搜索查询的过去的用户选择。7.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用指向所述网站的一个或多个网页的引用的锚点文本,所述锚点文本包括所述词语。8.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用黄页条目,所述黄页条目列出(1)作为企业名称的所述词语,以及(2)作为用于所述企业的主页的所述网站的网页。9.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用商标注册信息,所述商标注册信息列出(1)作为商标的所述词语,以及(2)作为主页的所述网站的网页。10.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用域名注册信息,所述域名注册信息列出(1)在域名中的所述词语,以及(2)所述网站的所述主页。11.如权利要求2所述的计算机实现的方法,其中如果确定所述词语可能与所述第二网页有关则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联的所述动作包括-确定所述第二网页是否是某一类型,以及-如果所述第二网页是某一类型,则确定不应当将所述词语与所述第二网页相关联。12.如权利要求11所述的计算机实现的方法,其中某一类型选自包括以下的网页类型的组:(A)新闻稿网页、(B)留言板网页、(C)论坛网页以及(D)外语网页。13.如权利要求2所述的计算机实现的方法,其中如果确定所述词语可能与所述第二网页有关则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联的所述动作包括:-确定在所述第二网页和所述第一网页之间的最短链接数,以及-如果所确定的最短链接数大于预定值,则确定不应当将所述词语与所述第二网页相关联。14.如权利要求5所述的计算机实现的方法,其中保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的搜索查询词语具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的信息检索组件。15.如权利要求5所述的计算机实现的方法,其中保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的搜索查询词语的搜索查询具有比所述第二网页在其他情况具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的页面排名组件。16.如权利要求1所述的计算机实现的方法,其中所识别的词语是短语。17.如权利要求1所述的计算机实现的方法,进一步包括:(f)接收包括所识别的词语的搜索查询;以及(g)增加具有所保存的与所识别的搜索词语的关联的所述第二网页的所述搜索结果分值。18.如权利要求17所述的计算机实现的方法,其中所述搜索结果分值增加的量值是所述第二网页的未增加的搜索结果分值的函数。19.如权利要求1所述的计算机实现的方法,其中所识别的词语是高度描述性信息。20.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是位置。21.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是地址。22.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是罕见词语。23.如权利要求22所述的计算机实现的方法,其中罕见词语是在网页和网站的集合中以少于预定的频率出现的词语。24.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是产品类别。25.如权利要求19所述的计算机实现的方法,其中保存所识别的高度描述性信息与所述第二网页的所述关联,使得所述第二网页对于包括所述高度描述性信息中的至少一些的搜索查询具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的信息检索组件。26.如权利要求19所述的计算机实现的方法,其中保存所识别的高度描述性信息与所述第二网页的所述关联,使得所述第二网页对于包括所述高度描述性信息中的至少一些的搜索查询具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的页面排名组件。27.如权利要求19所述的计算机实现的方法,其中在所述网站的主网页或根网页上找不到所述高度描述性信息,并且其中所述第二网页是所述网站的所述主网页或根网页。28.如权利要求2所述的计算机实现的方法,其中所识别的词语是高度描述性信息,并且其中对第二组信息的所述第二测试包括:A)确定对所述候选高度描述性信息的置信度水平,以及B)确定所确定的置信度水平是否大于预定的阈值,其中仅在确定所确定的置信度大于预...

【专利技术属性】
技术研发人员:丹尼尔艾尼奥保罗哈尔凯文拉克约翰兰平阿米塔巴K辛哈尔杨克
申请(专利权)人:谷歌公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1