搜索结果中放置内容排序的个性化制造技术

技术编号:2919104 阅读:208 留言:0更新日期:2012-04-11 18:40
利用用户概况排序搜索引擎返回的搜索结果中的放置内容的系统和方法。用户概况基于用户提交的搜索查询、用户与搜索引擎识别的文档的特定交互、和用户提供的个人信息。放置内容按至少部分基于特定放置内容与用户概况的相似性的分数排行。用户概况可以在客户机-服务器网络环境的客户机方或服务器方创建和/或存储在其中。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及计算机网络系统中的搜索引擎领域,尤其涉及响应用户提交的搜索查询,创建和利用用户概况(profile)定制放置内容(placedcontent)的排序的系统和方法。
技术介绍
搜索引擎提供了可以响应用户提交的搜索查询迅速扫描的来自因特网(或内联网)的带索引文档的强大来源。这样的查询通常非常短(平均约两三个字)。随着可通过因特网访问的文档的数量不断增加,与查询匹配的文档的数量可能也不断增加。但是,从用户的角度来看,并非与查询匹配的每个文档都同等重要。其结果是,如果搜索引擎不根据文档与用户查询的相关性排序搜索结果,用户很容易被搜索引擎返回的大量文档淹没。改善搜索结果与搜索查询的相关性的一种途径是利用不同网页的链接结构计算可以用于影响搜索结果的排行的全局“重要”分。这种途径有时被称为PageRank(页面排位)算法。PageRank算法的更详细描述可以从S.Brin和L.Page的文章“大型超文本搜索引擎的解剖”(“The Anatomy of aLarge-Scale Hypertextual Search Engine”,S.Brin and L.Page,7thInternational World Wide Web Conference,Brisbane,Australia)和美国专利第6,285,999号中找到,特此引用这两个文件作为背景信息,以供参考。PageRank算法的重要假设是,存在从随机挑选的网页开始其万维网冲浪旅程和继续点击嵌在网页中的链接,而决不会击中“返回”按钮的“随机冲浪者”。最终,当这个随机冲浪者厌烦了该旅程时,其可以通过随机挑选另一页网页重新开始新的旅程。随机冲浪者访问(即,观看或下载)一页网页的概率取决于网页的页面排位。从最终用户的角度来看,由于搜索引擎不要求用户提供可以唯一标识用户的任何信息,无论谁提交查询,利用PageRank算法的搜索引擎都以相同的方式对待搜索查询。影响搜索结果的唯一因素是搜索查询本身,例如,在查询中有多少个术语和按什么顺序排列。搜索结果最适合抽象用户,即,“随机冲浪者”的兴趣,而不会被调整成适合特定用户的偏爱或兴趣。实际上,像随机冲浪者那样的用户从不会存在。当用户向搜索引擎提交查询时,每个用户都有他自己的偏爱。搜索引擎返回的搜索结果的质量必须通过其用户满意度来评价。当用户的偏爱可以通过查询本身适当定义时,或当对于特定查询,用户的偏爱与随机冲浪者的偏爱类似时,用户更有可能对搜索结果感到满意。但是,如果用户的偏爱因未清楚反映在搜索查询本身中的一些个人因素而严重偏离,或如果用户的偏爱与随机用户的偏爱的差异相当大,来自相同搜索引擎的搜索结果即使不是完全无用,也可能几乎不可用于用户。正如上面提出的那样,随机冲浪者的旅程往往是随机的和中性的,不会明显倾向于特定方向。当搜索引擎只返回与查询匹配的少量搜索结果时,返回结果的顺序较不重要,因为提出请求的用户花得起浏览它们的每一个以发现与自己最有关的项目的时间。但是,随着几十亿的网页与因特网连接,搜索引擎往往返回数百,甚至数千与搜索查询匹配的文档。在这种情况下,搜索结果的排序非常重要。偏爱与随机冲浪者不同的用户可能无法在列在搜索结果中的前五个到前十个文档中找到他正在寻找的文档。当发生这种情况时,通常留给用户两种选择(1)花费审阅更多列出文档以定位相关文档所需的时间;或(2)改进搜索查询,以便减少与查询匹配的文档的数量。改进查询往往不是无足轻重的任务,有时需要比用户所拥有更多的有关主题的知识或更多的有关搜索引擎的专门知识,和有时需要比用户愿意花费的时间和努力更多的时间和努力。例如,假设用户向搜索引擎提交只含有一个术语“blackberry”的搜索查询。在没有任何其它上下文的情况下,在基于PageRank搜索引擎返回的一系列文档的顶端可以是到www.blackberry.net的链接,因为这个页面具有最高页面排位。但是,如果查询请求者是对食物和烹饪感兴趣的人士,将搜索结果排序成在返回结果的顶端包括含有食谱或其它食物相关文本、图片等的页面也许更有用。最好拥有以下搜索引擎其能够重新排序其搜索结果,或定制搜索结果,以便强调提交搜索查询的人士最有可能感兴趣的页面。并且,最好使这样的系统只需要来自各个用户的最少输入,其大部分或者全部无需与用户偏爱和兴趣有关的来自用户的显式输入就可以操作。最后,最好使这样的系统可以满足用户在安全和隐私方面的要求。
技术实现思路
在使放置内容个性化的方法中,确定用户的兴趣,和访问与用户相联系的用户概况。识别与用户兴趣匹配的一组放置内容,和按照用户概况排序该组放置内容。在本专利技术的一个方面中,搜索引擎利用用户概况定制可以包括放置内容,以及其它或一般内容的搜索结果。用户概况包含表征用户兴趣或偏爱的多个项目。这些项目是从包括用户提交的先前搜索查询、去向或来自先前查询识别的文档的链接、来自识别文档的取样内容,以及用户隐式或显式提供的个人信息的各种信息源中提取出来的。当搜索引擎接收到来自用户的搜索查询时,它识别与搜索查询匹配的一组放置内容。将每个放置内容与至少部分基于放置内容与用户概况的相似性的排位相联系。然后,根据它们的排位排序放置内容项。包括用户概况构建和搜索结果重新排序和/或评分的本专利技术可以在客户机-服务器网络环境的客户机方或服务器方实现。附图说明通过结合附图对本专利技术的优选实施例进行如下详细描述,本专利技术的上述特征和优点,以及本专利技术的其它特征和优点将更加清楚,在附图中图1例示了客户机-服务器网络环境;图2例示了多个用户信息源和它们与用户概况的关系;图3是可以用于为数个用户存储基于术语概况的示范性数据结构;图4A是可以用于分类用户过去搜索经历的示范性类别图;图4B是可以用于为数个用户存储基于类别概况的示范性数据结构;图5是可以用于为数个用户存储基于链接概况的示范性数据结构; 图6是例示段落取样的流程图;图7A是例示上下文分析的流程图;图7B描绘了利用上下文分析识别重要术语的过程;图8例示了可以分别用于在基于术语、基于类别和/或基于链接分析之后存储有关文档的信息的数种示范性数据结构;图9A是例示根据一个实施例的个性化万维网搜索过程的流程图;图9B是例示根据另一个实施例的个性化万维网搜索过程的流程图;图10是个性化搜索引擎的方块图;和图11是例示根据本专利技术一个实施例的个性化放置内容处理过程的流程图。在所有附图中,相同的标号自始至终表示相应的部件。优选实施例详述下面讨论的实施例包括根据用户过去使用搜索引擎的经历创建用户概况,然后,响应用户提供的搜索查询,利用用户概况排行搜索结果的系统和方法。图1提供了可以实现本专利技术的典型客户机-服务器网络环境100的概貌。数个客户机102通过网络105,例如,因特网与搜索引擎系统107连接。搜索引擎系统107包含一个或多个搜索引擎104。搜索引擎104负责处理客户机102提交的搜索查询,按照搜索查询生成搜索结果,和将结果返回给客户机。搜索引擎系统107还可以包含一个或多个内容服务器106、一个或多个用户概况服务器108、和一个或多个放置内容服务器111。内容服务器106存储从不同网站中检索的大量带索引文档。可替代地,或另外,内容服务器106存储在各种网站上存储本文档来自技高网
...

【技术保护点】
一种使放置内容个性化的方法,包含:确定用户的兴趣;访问与用户相联系的用户概况;识别与用户兴趣匹配的一组放置内容;和按照用户概况排序该组放置内容。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:奥伦E赞米尔杰弗里L科恩安德鲁B菲克斯斯蒂芬R劳伦斯
申请(专利权)人:谷歌股份有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1