当前位置: 首页 > 专利查询>北京大学专利>正文

一种Web新网页推荐方法技术

技术编号:6839920 阅读:205 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种Web新网页推荐方法。在该方法中,对于新网页,首先确定新网页出现在搜索引擎返回结果中的推荐比例;然后估测新页面的潜在质量,根据潜在质量的高低以预定的概率选取被推荐的新网页;将被推荐的新网页和搜索引擎返回结果一起展示给用户。本发明专利技术可以在尽量不影响搜索结果质量的前提下,向搜索引擎用户推荐一些高质量的新页面,使得它们获得被关注和点击的机会,在较短的时间内获得较高的认知度,通过用户的点击对新页面的质量进行自动评判,降低搜索引擎对新页面流行度演化过程的阻滞作用,使有价值的新页面可以“健康”地成长。

【技术实现步骤摘要】

本专利技术涉及一种推荐Web新网页的方法,尤其涉及一种针对搜索引擎排名算法的弱点,在尽量不影响搜索结果质量的前提下,向用户推荐高质量的新网页的方法,属于互联网搜索

技术介绍
当前,搜索引擎已经渐渐成为人们获取信息的主要方式之一。当搜索引擎把查询结果返回给用户时,查询结果的排列方式对结果被用户关注和点击的概率具有绝对的影响。那么应该如何对结果合理排名呢?在结果与查询关键词的匹配度一样的情况下,最理想的排名方案应该是按照结果页面质量从高到低排列。然而页面质量(page quality)是一个相当主观的概念。它需要通过网络用户的主观判断而得到,但是首先人工的评判需要大量的人力物力财力,耗费大量的时间。其次,由于不同的个体对于同一个Web页面的质量可能会得出不同的评价,使得人工网页评价成为相当不实际的做法。在此背景下,搜索引擎排名算法的设计者转而考虑用一些客观的易于被观察和计算的特征值来替代和近似估计一个网页的重要性程度。因而,Web页面流行度(page popularity)的概念被提出了。Web页面流行度代表一个网页被用户喜欢的程度,可以用页面获得的inlink数或者点击次数来计算。1998年S. Brin和L. Page等人提出了利用Web 链接结构图来获得页面重要性的算法,即I^ageRank算法。I^ageRank算法很好地利用了“群体智慧”,使搜索引擎的性能大为提高,是当前排名算法中的佼佼者。因此,I^ageRank算法目前仍然是绝大多数商业搜索引擎的排名算法的基础。基于网页流行度的排名算法虽然能够帮助网络用户搜寻有用的信息,但它同时也引发了一些弊端。Web是一个规模巨大、新旧页面不断更替的动态环境,其中每个新页面都会经历一个流行度从小到大,直到与其本身质量相一致的成长过程。当用网页流行度来近似获得网页质量时,Web新页面的质量往往被低估了。特别是当搜索引擎开始主导用户的浏览模式时,新页面被访问的概率大大下降,流行度的成长过程被大大的延长了。为了解决新网页容易被搜索引擎所忽视的问题,S. Pandey和S. Roy等人提出了一种amffling方法。该方法的本质是剥夺一个成熟页面被展示的机会,而把这个机会让给某个被随机推荐出来的新页面。由于amffling方法在选取被推荐的新页面时采用的是随机法,因此被推荐的新页面的质量可能参差不齐,所以很可能造成一个质量不佳的新页面占据了良好的展示位置出现在结果集合中,却没有能为用户带来有用信息的局面。虽然 amffling方法在理论上对于新页面提升认知度有一定作用,但实际应用的效果难以得到保障。在提高搜索结果时效性方面也有很多类似的技术。例如在专门针对新闻时事的搜索引擎中,搜索结果通常都是按照页面发布的时间或者时新度(freshness)排名的,因为新闻搜索引擎的用户更关注的是最新报道,根据结果时效性来对结果排名是最符合用户需求的。页面时效性对于新闻搜索排名是有实际意义的,但无法用于评价新网页的质量,因此并不适合作为推荐普遍意义上的新页面的衡量标准。
技术实现思路
本专利技术所要解决的技术问题在于提供。该方法可以使新页面有更多机会被用户认知,有助于优化搜索引擎的排名,提高用户满意度。为了实现上述的专利技术目的,本专利技术采用下述的技术方案,其特征在于包括如下步骤对于新网页,首先确定所述新网页出现在搜索引擎返回结果中的推荐比例;然后估测新页面的潜在质量,根据潜在质量的高低以预定的概率选取被推荐的新网页;将被推荐的新网页和搜索引擎返回结果一起展示给用户。其中,所述推荐比例为15% 20%。在估测新页面的潜在质量时,使用的方法包括以下三种(1)使用新网页当前的I^ageRank结果(简称Naive方法)(2)使用兄弟页面I^geRank的均值(简称ASP方法)(3)使用兄弟页面I^ageRank的中值(简称MSP方法)将被推荐的新网页和搜索引擎返回结果一起展示给用户时,可以采用的页面展示方法包括显式展示法和隐式展示法,其中隐式展示法是将被推荐的新页面与原来的10个结果混合在一起,没有区分的展示给用户;显式展示法是将被推荐的新页面以某种显著的方式展示给用户。本Web新网页推荐方法可以在尽量不影响搜索结果质量的前提下,向搜索引擎用户推荐一些高质量的新页面,使得它们获得被关注和点击的机会,在较短的时间内获得较高的认知度,通过用户的点击对新页面的质量进行自动评判,降低搜索引擎对新页面流行度演化过程的阻滞作用,使有价值的新页面可以“健康”地成长。附图说明下面结合附图和具体实施方式对本专利技术作进一步的详细说明。图1为三种估测网页潜在质量的方法的对比试验结果示意图;图2为本专利技术所提供的RankPro推荐方法从三个维度确定新网页推荐方式的示意图;图3为摄影图片网站实验中,三种推荐方法在每个类别的POH值;图4为摄影图片网站实验中,三种推荐方法在每个类别的AOR值。具体实施例方式现有研究表明,页面流行度并不总是与页面本身的质量成正比,而是在开始时总是较低,随着页面的慢慢成熟,获得较多的用户关注和点击之后逐渐成长,直到最终与页面本身的质量一致。对于Web上每一个页面,都存在这样一个流行度成长的过程,这个过程同时也是页面本身从一个新生页面过渡到成熟页面的过程。因此,用当前的网页流行度对网页进行排序,即使是高质量的新网页,也会由于其流行度火候不足而受到压制,排名靠后。把流行度位于不同起点上的新旧网页混在一起进行排名,对新网页是不公平的。同时,人们往往倾向于搜索较新的信息,这会降低搜索结果的用户满意度。再则,新页面由于排名靠后,被访问的机会很低,被认可的机会也就低了,其流行度的成长就会受到严重阻碍。从搜索引擎的角度分析基于网页流行度的排名算法存在的问题,需要考虑以下两占.(I)Web的动态性Web是一个动态的环境,不断有网页产生、更新和消亡,其链接结构也随着不断变化。这是毋庸置疑的,问题在于变化的速度和程度如何。如果Web上页面更替很小很慢,那么由于新网页流行度和质量不匹配造成的搜索性能降低很小,没有必要花很大的代价去寻找新的排名技术并整合到排名策略中;如果页面更替频繁,新页面出现的速率很高,那么搜索性能可提高的空间就很大。所以,Web的动态程度决定了是否有必要寻找新的排名方法。(2)搜索引擎排名的影响当前主要的搜索引擎回应用户查询的方式是返回一个URL的有序列表。如果用户对返回结果排序的依赖比较小,那么新网页即使排得稍微靠后些,被访问的可能性也不会降低太多,对搜索性能和新网页流行度的成长不会造成太大影响;反之,如果用户严重依赖结果的排名,那么搜索引擎就应该考虑对新网页的排名进行一定的提升。现有研究和专利技术人所做的观察实验都表明Web页面演化的速度相当快;搜索引擎用户对搜索结果的依赖很强,特别对于返回结果中排名比较靠前的,特别是前二、三十个结果最为关注,而排名靠后的页面很难获得点击。鉴于Web页面和搜索引擎的上述特点,向用户推荐高质量的新网页需要考虑如下的三个问题 如何决定被推荐新页面个数同原来搜索结果之间的推荐比例? 如何决定哪些新页面应该被推荐? 被推荐页面应以怎样的方式与原排名结合并展示给搜索引擎用户?下面分别进行详细的说明。1.推荐比例的确定推荐比例指的就是每十个返回结果要搭配多本文档来自技高网
...

【技术保护点】
1.一种Web新网页推荐方法,其特征在于包括如下步骤:对于新网页,首先确定所述新网页出现在搜索引擎返回结果中的推荐比例;然后估测新页面的潜在质量,根据潜在质量的高低以预定的概率选取被推荐的新网页;将被推荐的新网页和搜索引擎返回结果一起展示给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:张岩
申请(专利权)人:北京大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1