以用户历史优化WEB爬取制造技术

技术编号：9901188 阅读：100 留言：0更新日期：2014-04-10 12:36

一种优雅管理器基于由客户端web浏览器上的插件或工具栏所生成并且发送的历史上的日志数据来估计到站点的业务量。所述历史上的日志数据详述所述web浏览器访问不同web站点的日期和时间，所述历史上的日志数据被用来理解特定web站点什么时间帧是忙碌的并且所述web站点什么时间帧不是忙碌的。对于web站点的针对不同时间帧的爬取速率基于所述历史上的日志数据被确定，并且web爬取器被调度来根据所述爬取速率来爬取所述web站点以便最小化web爬取器请求对站点崩溃有责任的机会。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】一种优雅管理器基于由客户端web浏览器上的插件或工具栏所生成并且发送的历史上的日志数据来估计到站点的业务量。所述历史上的日志数据详述所述web浏览器访问不同web站点的日期和时间，所述历史上的日志数据被用来理解特定web站点什么时间帧是忙碌的并且所述web站点什么时间帧不是忙碌的。对于web站点的针对不同时间帧的爬取速率基于所述历史上的日志数据被确定，并且web爬取器被调度来根据所述爬取速率来爬取所述web站点以便最小化web爬取器请求对站点崩溃有责任的机会。【专利说明】以用户历史优化WEB爬取
技术介绍
搜索引擎使用web爬取器来理解万维网(“web”)上的文档。Web爬取器是持久地搜索web从而通过它们的内容(例如，关键词、文本、互惠链接、视频、图像、音频等等)索引web站点的程序。因为web站点是不断地改变的,所以web爬取器必须重复地爬取站点以便索引最新鲜的内容。然而，重复性地访问web站点对于站点的所有者造成问题，因为托管站点的服务器可能仅能够同时服务特定数目的用户/请求者。所以在峰值业务量周期期间爬取站点(例如，用于在特定股票交易的开市钟附近交易股票的站点)对于站点的稳定性来说变得危险。在站点的业务量的不稳定性质的情况下平衡索引新鲜内容的需要对于现代web爬取器来说是困难任务。站点所有者设法控制web爬取器访问他们的站点的速率的传统方式是通过称作“robot, txt”文件的指导文本文件。Robot, txt文件指示web爬取器能够访问站点的速率(“爬取速率”)和web爬取器必须在获取之间等待的延迟(“爬取延迟”)。爬取速率和延迟两者...

【技术保护点】
一种用于爬取web站点的方法，包括：从多个web浏览器接收日志数据，所述日志数据指示通过所述web浏览器访问所述web站点的用户；使用所述日志数据来估计在时间帧期间到所述web站点的业务量；基于业务量的估计来确定在所述时间帧期间的爬取速率；以及使用所述爬取速率来调度一个或多个web爬取器来请求所述web站点。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：DM维尔曼，F卡内尔，B什亚姆库马，CX张，
申请(专利权)人：微软公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人