【技术实现步骤摘要】
【国外来华专利技术】§1.1
符合本专利技术的实施例涉及信息检索(IR)。具体地,符合本专利技术的实施例涉及改进诸如网页的文档的信息检索,所述文档属于诸如网站的多组文档中的一组。§1.2
技术介绍
搜索引擎在帮助人们在万维网(“Web”)以及其它网络上找到感兴趣的信息方面已非常有用。在澳大利亚布里斯班举行的SeventhInternational World Wide Web Conference(第七届国际万维网会议)上S.Brin和L.Page发表的论文“Anatomy of a Large-Scale HypertextualSearch Engine(剖析大规模超文本搜索引擎)”和美国专利No.6,285,999中(两者在此均以引用的方式并入)描述了示例性搜索引擎。搜索引擎可以接收对搜索结果的查询。作为响应,搜索引擎可以(例如从网页的索引中)检索相关搜索结果。这样的搜索结果可以包括例如网页标题的列表、从这些网页中提取的文本的摘录以及指向这些网页的超文本链接,并且可以将所述搜索结果分组为预定数量(例如10)的搜索结果。图1是可以包括网络(诸如因特网)160的环境100的上层框图,其中使用信息访问工具(facility)(客户端设备)110来呈现从一个或多个内容提供者(例如网页服务器)180处访问的信息。搜索工具(服务器)130可以被信息访问工具110使用来搜索感兴趣的内容。信息访问工具110可以包括浏览操作112,其可以包括导航操作114和用户接口操作116。浏览操作112可以经由输入/输出接口操作118来访问网络160。例如,在个人计算机的情况中,浏览操作112可 ...
【技术保护点】
一种计算机实现的方法,包括: a)接受与网站有关的信息; b)识别与所述网站的第一网页有关的词语,所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关; c)确定与所述第一网页具有特定关系的所述网站的第二网页; d)确定是否应当将所识别的词语与所述第二网页相关联;以及 e)如果确定应当将所述词语与所述第二网页相关联,则保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的词语的搜索查询将具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值。
【技术特征摘要】
【国外来华专利技术】US 2006-3-31 11/396,3011.一种计算机实现的方法,包括:a)接受与网站有关的信息;b)识别与所述网站的第一网页有关的词语,所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关;c)确定与所述第一网页具有特定关系的所述网站的第二网页;d)确定是否应当将所识别的词语与所述第二网页相关联;以及e)如果确定应当将所述词语与所述第二网页相关联,则保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的词语的搜索查询将具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值。2.如权利要求1所述的计算机实现的方法,其中确定是否应当将所述词语与所述第二网页相关联的所述动作包括:1)使用对第一组信息的第一测试来确定所述词语是否可能与所述第二网页有关,以及2)如果确定所述词语可能与所述第二网页有关,则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联。3.如权利要求1所述的计算机实现的方法,其中使用除所述特定关系外的证据来识别与所述网站的第一网页有关的所述词语,所述词语对于处理包括所述词语的搜索查询的目的可能应当与所述网站的另一个网页有关。4.如权利要求3所述的计算机实现的方法,其中所述特定关系是在两个网页之间存在的链接。5.如权利要求1所述的计算机实现的方法,其中识别词语的所述动作识别与所述网站极度相关联的词语。6.如权利要求5所述的计算机实现的方法,其中所述词语是搜索查询词语,并且其中识别与所述网站极度相关联的搜索查询词语的所述动作使用过去的用户搜索查询和对与所述网站相对应的搜索查询的过去的用户选择。7.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用指向所述网站的一个或多个网页的引用的锚点文本,所述锚点文本包括所述词语。8.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用黄页条目,所述黄页条目列出(1)作为企业名称的所述词语,以及(2)作为用于所述企业的主页的所述网站的网页。9.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用商标注册信息,所述商标注册信息列出(1)作为商标的所述词语,以及(2)作为主页的所述网站的网页。10.如权利要求5所述的计算机实现的方法,其中识别与所述网站极度相关联的词语的所述动作使用域名注册信息,所述域名注册信息列出(1)在域名中的所述词语,以及(2)所述网站的所述主页。11.如权利要求2所述的计算机实现的方法,其中如果确定所述词语可能与所述第二网页有关则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联的所述动作包括-确定所述第二网页是否是某一类型,以及-如果所述第二网页是某一类型,则确定不应当将所述词语与所述第二网页相关联。12.如权利要求11所述的计算机实现的方法,其中某一类型选自包括以下的网页类型的组:(A)新闻稿网页、(B)留言板网页、(C)论坛网页以及(D)外语网页。13.如权利要求2所述的计算机实现的方法,其中如果确定所述词语可能与所述第二网页有关则使用对第二组信息的第二测试来确定是否应当将所述词语与所述第二网页相关联的所述动作包括:-确定在所述第二网页和所述第一网页之间的最短链接数,以及-如果所确定的最短链接数大于预定值,则确定不应当将所述词语与所述第二网页相关联。14.如权利要求5所述的计算机实现的方法,其中保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的搜索查询词语具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的信息检索组件。15.如权利要求5所述的计算机实现的方法,其中保存所识别的词语与所述第二网页的所述关联,使得所述第二网页对于包括所识别的搜索查询词语的搜索查询具有比所述第二网页在其他情况具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的页面排名组件。16.如权利要求1所述的计算机实现的方法,其中所识别的词语是短语。17.如权利要求1所述的计算机实现的方法,进一步包括:(f)接收包括所识别的词语的搜索查询;以及(g)增加具有所保存的与所识别的搜索词语的关联的所述第二网页的所述搜索结果分值。18.如权利要求17所述的计算机实现的方法,其中所述搜索结果分值增加的量值是所述第二网页的未增加的搜索结果分值的函数。19.如权利要求1所述的计算机实现的方法,其中所识别的词语是高度描述性信息。20.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是位置。21.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是地址。22.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是罕见词语。23.如权利要求22所述的计算机实现的方法,其中罕见词语是在网页和网站的集合中以少于预定的频率出现的词语。24.如权利要求19所述的计算机实现的方法,其中所述高度描述性信息是产品类别。25.如权利要求19所述的计算机实现的方法,其中保存所识别的高度描述性信息与所述第二网页的所述关联,使得所述第二网页对于包括所述高度描述性信息中的至少一些的搜索查询具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的信息检索组件。26.如权利要求19所述的计算机实现的方法,其中保存所识别的高度描述性信息与所述第二网页的所述关联,使得所述第二网页对于包括所述高度描述性信息中的至少一些的搜索查询具有比所述第二网页在其他情况下具有的搜索分值更高的搜索分值的所述动作增加了所述搜索分值的页面排名组件。27.如权利要求19所述的计算机实现的方法,其中在所述网站的主网页或根网页上找不到所述高度描述性信息,并且其中所述第二网页是所述网站的所述主网页或根网页。28.如权利要求2所述的计算机实现的方法,其中所识别的词语是高度描述性信息,并且其中对第二组信息的所述第二测试包括:A)确定对所述候选高度描述性信息的置信度水平,以及B)确定所确定的置信度水平是否大于预定的阈值,其中仅在确定所确定的置信度大于预...
【专利技术属性】
技术研发人员:丹尼尔艾尼奥,保罗哈尔,凯文拉克,约翰兰平,阿米塔巴K辛哈尔,杨克,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。