当前位置: 首页 > 专利查询>微软公司专利>正文

计算显示页面中块的重要度的方法和系统技术方案

技术编号:2857632 阅读:211 留言:0更新日期:2012-04-11 18:40
一种用于确定显示页面的信息区域的重要度的方法和系统。一种确定网页中信息区域或块的重要度的系统。网页块表示看起来涉及相似主题的网页区域。该重要度系统将块的特性或特征提供给重要度函数,该函数生成该块对于其网页的重要度的指示。该重要度系统通过生成基于块的特征和用户指定的这些块的重要度的模型“组合”该重要度函数。为获得该重要度函数,该重要度系统要求用户提供网页集合中各网页的块的重要度指示。

【技术实现步骤摘要】

这里描述的技术通常涉及识别显示页面中、代表显示页面的重要主题的信息块的技术。
技术介绍
提供诸如Google和Overture的许多搜索引擎服务器,其用于经由网络搜索可获得的信息。这些搜索引擎服务器允许用户搜索他感兴趣的显示页面,例如,网页。用户提交一个包括搜索条目的搜索请求后,搜索引擎服务器识别可能与那些搜索条目相关的网页。为了快速识别相关网页,搜索引擎服务器可以保持将关键词映射到网页。这个映射可以通过“爬行”该网络(例如,万维网)生成,以识别每个网页的关键词。为了爬行该网络,搜索引擎服务器可以使用根网页的一个列表来识别经由那些根网页可以访问的所有网页。使用各种已知的信息检索技术可以识别任何特殊网页的关键词,例如,识别标题行的词,在网页的数据元里提供的词,突出显示的词等等。然后基于每次匹配的受欢迎的网页等的接近度、网页通俗性(例如Google的PageRank)等等,搜索引擎服务器将搜索结果的网页进行排序。搜索引擎服务器也可以生成一个相关的分数以指示网页信息与搜索要求相关程度。然后搜索引擎服务器基于它们的等级按顺序向用户显示到那些网页的链接。搜索结果网页是否对用户有意义的很大部分取决于搜索引擎服务识别的表示网页主题的关键字的程度。因为网页可以包含许多不同的信息类型,可能难以辨别该网页的主题。例如,许多网页包含与网页主题无关的广告。一个新网点的网页可以包含关于国际政治事件的文章,还可以包含“干扰信息”,比如大众饮食广告,有关法律告示的区域,和导航条。传统上,搜索引擎服务很难识别网页的干扰信息以及什么信息与网页的主题有关。结果,搜索引擎服务可能选择基于干扰信息的关键字,而不是该网页的主题。例如,搜索引擎服务可能将包含饮食广告的网页匹配到关键字″餐饮″,即使该网页的主题与国际政治事件有关。然后当用户提交包括搜索词″餐饮″的搜索请求时,该搜索引擎服务可能返回该包含餐饮广告的网页,该网页对用户是没有意义的。希望有一种技术可以计算网页的不同信息区对该该网页主题的重要度。
技术实现思路
重要度系统识别显示页面信息区的重要度。该重要度系统识别表示网页区域的网页信息区或块,而该网页看起来与相似的主题有关。在识别这个网页的信息块以后,该重要度系统将该块的特征或特性提供给重要度函数,该重要度函数对其网页产生重要度的指示。该重要度系统可以通过产生基于该块特征的模型和用户指定的那些块的重要度来获得该重要度函数。附图说明图1是说明在一个实施例中的重要度系统的组成结构图。图2是说明在一个实施例中重要度系统的生成重要度函数组件的处理流程图。图3是说明在一个实施例中重要度系统的生成特征向量组件的处理流程图。图4是说明在一个实施例中重要度系统的一个计算块重要度组件的处理流程图。图5是说明在一个实施例中一个使用获得的重要度函数的顺序搜索结果组件的处理流程图。图6是说明在一个实施例中一个使用获得的重要度函数的扩展搜索结果组件的处理流程图。图7是说明在一个实施例中一个使用获得的重要度函数的检索网页组件的处理流程图。图8是说明在一个实施例中一个使用获得的重要度函数的分类网页组件的处理流程图。具体实施例方式提供一种用于识别显示页面信息区的重要度的方法和系统。在一个实施例中,重要度系统识别网页的信息区或块。网页的块表示该网页的区域,该区域看来似乎与相似的主题有关。例如,网页的新闻可以表示一个块,而餐饮广告可以表示另一个块。在识别这个网页的块以后,该重要度系统将该块的特征或特性提供给重要度函数,该重要度函数产生一个该块对该网页的重要度的指示。该重要度系统通过产生一个基于块特性和用户指定的那些块的重要度的模型来“获得”该重要度函数。想要获得该重要度函数,该重要度系统要求用户提供该网页的块的重要度的指示,该网页是网页集合中的一个。例如,用户可以识别某一块对一个网页第一重要,而另一个用户可以识别该块对该网页第二重要。该重要度系统同时给每个块确定一个特征向量,每个特征向量可以表示该块不同的空间和内容特征。例如,空间特征可能是块的大小或位置,内容特征可能是块内部连接的数目或块内字的数目。然后该重要度系统获得一个重要度函数,基于用户指定的重要度和块特征向量。该函数输入块的特征向量并输出该块的重要度。该重要度系统可以试图获得特征函数,该特征函数最小化用户指定的该块的重要度和该重要度函数计算的重要度之间的平方差。这样,该重要度系统可以基于用户认为重要的块特征而识别与该网页的主题相关的网页块。一旦获得该重要度函数,就可用于提高许多应用的准确度,其结果依靠对网页主题的识别。该搜索引擎服务可以使用该重要度函数计算对应搜索请求的搜索结果网页的相关性。获得搜索结果后,该搜索引擎服务可以使用该重要度函数识别各网页的最重要的块,并计算最重要的块(或一组重要块)对该搜索请求的相关性。因为这个相关性是以该网页最重要的块的信息为基础的,因此它可能是一个比基于网页全部信息的相关性更精确的相关性度量,前面的相关性可能包括干扰信息。搜索引擎服务同时可以使用该重要度函数来识别与某一网页有关的网页。该搜索引擎服务可以使用该重要度函数以识别该网页的最重要块,然后基于该识别块标准化搜索请求。该搜索引擎服务可以使用该标准化搜索请求执行搜索以识别与某一网页有关的网页。搜索引擎服务也可以使用该重要度函数来分类网页。例如,网页可以基于它们的主题分类。该搜索引擎服务可以使用该重要度函数以识别网页的最重要块,并基于该识别块的文本分类该网页。当网页的内容不能全部显示在显示设备上时,浏览器也可以使用该重要度函数以识别要显示的网页部分。例如,蜂窝式便携无线电话或个人数字助理等装置可能有很小的显示器,由于信息的数量、规模和复杂性,大部分网页不能适当地在其上显示。当内容很小不能被人们容易地看到时,网页就不是适当地显示。当使用这样的装置用于浏览网页时,该重要度函数可以用来识别网页的最重要块,并只在小显示器上显示该识别块。换句话说,基于重要度函数指出的该块的重要度,浏览器可以重新整理该网页块,突出显示该网页块,移动该网页块等等。重要度系统可以识别网页的信息区,所述网页使用不同的分割方法,比如基于文件对象模型(DOM)的分割算法,基于位置的分割算法,基于视觉的分割算法等等。基于DOM的分割算法可以使用网页的超级文本标志语言层次,以识别它的不同块。基于位置的分割算法试图识别网页的区域,该网页可被认为是基于区域物理性质的组合。2003年7月28日提交的、题为“基于视觉的文件分割”的美国专利申请第10/628,766号所描述的一种基于视觉的分割算法文本在这里引入作为参考。那些基于视觉的分割算法以每个块的信息内容相关性为基础识别块。例如,餐饮广告可以表示单个块,因为它的内容指向单个主题,并由此具有高相关性。可以将一个包括许多不同主题的显示页面的区域分成许多不同的块。该重要度系统可以使用不同的技术从表示该块的特征向量及用户指定的块的重要度获得重要度函数。例如,象下面更详细的描述一样,该重要度系统可以使用神经网络或支持向量机获得该重要度函数。另外,该重要度系统可以在表示该块的特征向量中使用该块的不同的空间和内容特征。例如,空间特征可以包括该块的中心位置和该块的尺寸,这些被提作“绝对空间特征”。这些绝对空间特征可以基于该网页本文档来自技高网
...

【技术保护点】
一种用于在计算机系统中对包含块的网页确定该块对该网页重要度的方法,该方法包括:    提供具有块的网页集合;    对于每个块,    生成一个表示该块的特征向量;并    从个人收集所述块对于它所在网页的重要度的指示;    从生成的特征向量和指示的每个块的重要度获得一个函数,其表示从特征向量到重要度的映射;以及    将获得的该函数应用到所述网页的块的特征向量表示,以生成所述块对于该网页的重要度的指示。

【技术特征摘要】
US 2004-4-29 10/834,6391.一种用于在计算机系统中对包含块的网页确定该块对该网页重要度的方法,该方法包括提供具有块的网页集合;对于每个块,生成一个表示该块的特征向量;并从个人收集所述块对于它所在网页的重要度的指示;从生成的特征向量和指示的每个块的重要度获得一个函数,其表示从特征向量到重要度的映射;以及将获得的该函数应用到所述网页的块的特征向量表示,以生成所述块对于该网页的重要度的指示。2.如权利要求1所述的方法,其特征在于,特征向量包括空间特征。3.如权利要求1所述的方法,其特征在于,特征向量包括内容特征。4.如权利要求3所述的方法,其特征在于,内容特征包括图象特征。5.如权利要求3所述的方法,其特征在于,内容特征包括连接特征。6.如权利要求3所述的方法,其特征在于,内容特征包括交互特征。7.如权利要求1所述的方法,其特征在于,特征向量包括空间特征和内容特征。8.如权利要求1所述的方法,其特征在于,对所述函数的获得包括应用基于神经网络的回归分析。9.如权利要求8所述的方法,其特征在于,所述神经网络是放射基神经网络。10.如权利要求1所述的方法,其特征在于,通过选择一个旨在将由函数计算出的重要度和收集的重要度的差的平方和最小化的函数来获得该函数。11.如权利要求1的方法,其特征在于,所述函数的获得包括使用支持向量机算法。12.一种在计算机系统中用来建立网页与搜索结果相关性的方法,该方法包括识别所述搜索结果的每个页面的块;以及对于所述搜索结果的每个页面,选择具有最高重要度的页面的块;和基于所选的块设置网页的相关性。13.如权利要求12所述的方法,其特征在于,相关性的设置包括调整在先计算出的相关性。14.如权利要求12所述的方法,其特征在于,具有最高重要度的块的选择包括对页面的每个块,生成块的一个特征向量,并将重要度函数应用到生成的特征向量。15.如权利要求14所述的方法,其特征在于,基于网页集的块的用户指定重要度,来获得该重要度函数。16.如权利要求12所述的方法,其特征在于,包括基于设置的相关性对网页进行排序。17.一种用于在计算机系统中识别与页面相关的页面的方法,该方法包括识别该页面的块;选择具有最高重要度的页面的块;基于该选择的块生成搜索请求;和提交生成的搜索请求,以识别与该页面相关的页面。18.如权利要求17所述的方法,其特征在于,选择具有最高重要度的块包括对该页面的每个块,生成块的特征向量,并将重要度函数应用到生成的特征向量。19.如权利要求18所述的方法...

【专利技术属性】
技术研发人员:H刘文继荣R宋马维英
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1