当前位置: 首页 > 专利查询>微软公司专利>正文

以用户历史优化WEB爬取制造技术

技术编号:9901188 阅读:100 留言:0更新日期:2014-04-10 12:36
一种优雅管理器基于由客户端web浏览器上的插件或工具栏所生成并且发送的历史上的日志数据来估计到站点的业务量。所述历史上的日志数据详述所述web浏览器访问不同web站点的日期和时间,所述历史上的日志数据被用来理解特定web站点什么时间帧是忙碌的并且所述web站点什么时间帧不是忙碌的。对于web站点的针对不同时间帧的爬取速率基于所述历史上的日志数据被确定,并且web爬取器被调度来根据所述爬取速率来爬取所述web站点以便最小化web爬取器请求对站点崩溃有责任的机会。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】一种优雅管理器基于由客户端web浏览器上的插件或工具栏所生成并且发送的历史上的日志数据来估计到站点的业务量。所述历史上的日志数据详述所述web浏览器访问不同web站点的日期和时间,所述历史上的日志数据被用来理解特定web站点什么时间帧是忙碌的并且所述web站点什么时间帧不是忙碌的。对于web站点的针对不同时间帧的爬取速率基于所述历史上的日志数据被确定,并且web爬取器被调度来根据所述爬取速率来爬取所述web站点以便最小化web爬取器请求对站点崩溃有责任的机会。【专利说明】以用户历史优化WEB爬取
技术介绍
搜索引擎使用web爬取器来理解万维网(“web”)上的文档。Web爬取器是持久地搜索web从而通过它们的内容(例如,关键词、文本、互惠链接、视频、图像、音频等等)索引web站点的程序。因为web站点是不断地改变的,所以web爬取器必须重复地爬取站点以便索引最新鲜的内容。然而,重复性地访问web站点对于站点的所有者造成问题,因为托管站点的服务器可能仅能够同时服务特定数目的用户/请求者。所以在峰值业务量周期期间爬取站点(例如,用于在特定股票交易的开市钟附近交易股票的站点)对于站点的稳定性来说变得危险。在站点的业务量的不稳定性质的情况下平衡索引新鲜内容的需要对于现代web爬取器来说是困难任务。站点所有者设法控制web爬取器访问他们的站点的速率的传统方式是通过称作“robot, txt”文件的指导文本文件。Robot, txt文件指示web爬取器能够访问站点的速率(“爬取速率”)和web爬取器必须在获取之间等待的延迟(“爬取延迟”)。爬取速率和延迟两者是预定静态值,其因此不允许基于站点业务量的调整。
技术实现思路

技术实现思路
被提供来以简化的形式介绍概念的选择,所述概念下面在【具体实施方式】中被进一步描述。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征,它也不旨在被用来帮助确定所要求保护的主题的范围。一个方面针对在web爬取器的管理和调度中使用从客户端计算设备上的web浏览器发送的日志数据。日志数据向web浏览器的用户指示web历史。来自许多不同客户端的日志数据被接收和聚合,并且经聚合的数据日志数据被分析以便理解web站点在不同时间帧期间历史上有多忙碌。假定不同时间帧的历史上的忙碌是将来时间帧在相同时间期间的忙碌的合宜预测器,一个实施例使用在时间帧期间经计算的业务来概率性地估计对于将来时间巾贞来说到web站点的业务量。业务量估计被用来确定对于web爬取器访问和爬取web站点的速率。另一方面针对聚合从客户端web浏览器周期性地接收到的日志数据与其它接收到的客户端-浏览器日志数据以便理解web站点在不同时间帧期间的历史上的忙碌。使用聚合日志数据,在一个或多个时间帧期间到web站点的业务量的概率估计被形成,并且web爬取器被设置成以将不超过业务量估计的速率来获取web站点。这样做提供了 web爬取器将不使web站点崩溃的高概率。在又一个方面,服务器被配置成执行管理web爬取器的优雅(politeness)管理器。优雅管理器基于由客户端web浏览器所发送的指示那些浏览器的历史的日志数据来估计在不同时间帧期间对web站点的页面请求的门限频率。基于所述日志数据,优雅管理器调度一个或多个web爬取器以便以低于页面请求的门限频率的速率来访问web站点。Web爬取器根据优雅管理器的调度来访问web站点,从而累积地以低于页面请求的门限频率的速率进行爬取。【专利附图】【附图说明】本专利技术参考附图在下面被详细地描述,其中: 图1是根据一个实施例的计算设备的框图; 图2是根据一个实施例的用于智能地爬取web站点的联网环境的框图; 图3是根据一个实施例的具有致力于智能地爬取web站点的数个设备的处理流程的图; 图4是根据一个实施例的用于智能地爬取web站点的流程图的图;以及 图5是根据一个实施例的用于智能地爬取web站点的流程图的图。【具体实施方式】本文中所描述的主题被具体地呈现以满足法定要求。然而,本文中的描述不旨在限制本专利的范围。替代地,所要求保护的主题还可以与其它目前的或将来的技术相结合地被以其它方式体现,以便包括不同的步骤或与在本文档中所描述的步骤类似的步骤的组口 ο如本文所用的那样,“web站点”指的是web页面、web博客、在线视频、在线图像、在线视频以及可能通过网络可访问的各种其它内容。为了帮助本文中说明书的可读性,“web站点”和“站点”被互换地使用。本领域的技术人员应了解,web爬取器能够被配置成分析并且解释web站点上的文本和/或元数据以便理解在线内容。为此目的,文本可以基于文本的底层定义、在网站上的放置或到内容的另一部分的位置而被判断或者加权。判断内容的经典例子是对关键词或短语在web站点上的次数进行计数,从而当关键词是在web站点顶上、在web站点上的标题中或者发现相对地接近于关键词的另一实例时提供更多顺从(deference)。或者,在另一例子中,视频的标题可以针对web站点上的关键词以及放置被分析。存在用于通过web爬取器来推断和判断web站点内容的无数方式,因此不同的实施例可以使用不同的技术。一般来说,本文中所描述的实施例针对智能地管理访问web站点的web爬取器。不同的实施例基于对来自客户端上的报告web浏览器或者来自提供网络管理员(webmaster)服务的主机服务器的历史上的日志数据的取样来确定爬取web站点的速率。聚合日志数据允许一些实施例理解哪些时间帧是特别忙碌的并且哪些时间帧不是忙碌的,以便提高或者减少web爬取器访问web站点的频率。当站点历史上尚不是忙碌的时,web爬取器可能被允许比当站点历史上一直忙碌时更频繁地请求web站点。至少一个实施例使用从客户端计算设备上的web浏览器发送的日志数据。该日志数据向web浏览器的用户指示web历史,其能够与来自其它web浏览器的日志数据聚合来理解到特定web站点的业务量模式。作为例子,考虑web站点www.microsoft.com。来自许多不同客户端的日志数据被接收和聚合。经聚合的日志数据然后被分析以便理解对于WWW.microsoft.com来说什么时间典型地是忙碌的并且什么时间是不太忙碌的。例如,日志数据可以揭示www.microsoft.com在工作日的夜晚比在午饭时间被远不太频繁地访问。理解忙碌且静止的时间允许实施例概率性地估计在不同时间帧期间(诸如在上午1:00-上午2:00)到web站点的业务量。业务量估计然后能够被用来确定web爬取器能够以其访问web站点的速率(爬取速率),并且该爬取速率在一个实施例中被用来调度web站点的爬取。另一实施例从web浏览器接收指示浏览器历史的日志数据。浏览器历史可以包括这样的数据,诸如被浏览器历史上访问的web站点的统一资源定位符(“URL”)、URL被访问的时间和日期、上线URL (即,先前请求的站点的URL)、页面签名以及作为浏览器的历史保存的其它众所周知的属性。实施例还能够访问来自其它web浏览器的日志数据并且聚合所有日志数据以便形成到特定web站点的业务量的智能图片。使用经聚合的日志数据,在一个或多个时间帧期间到该web站点的业务量的概率估计被形本文档来自技高网
...

【技术保护点】
一种用于爬取web站点的方法,包括:从多个web浏览器接收日志数据,所述日志数据指示通过所述web浏览器访问所述web站点的用户;使用所述日志数据来估计在时间帧期间到所述web站点的业务量;基于业务量的估计来确定在所述时间帧期间的爬取速率;以及使用所述爬取速率来调度一个或多个web爬取器来请求所述web站点。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:DM维尔曼F卡内尔B什亚姆库马CX张
申请(专利权)人:微软公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1