一种分布式垂直爬虫服务系统的优化方法技术方案

技术编号:12738793 阅读:174 留言:0更新日期:2016-01-20 23:47
本发明专利技术的目的在于提供一种分布式垂直爬虫服务系统的优化方法,该方法将原有的爬虫服务系统拆分为下载服务和页面分析逻辑两部分,且将该下载服务和分析逻辑均部署在多个云主机上,任务队列也拆分为下载任务队列和分析任务队列。本发明专利技术方法优化的爬虫服务系统能够提升垂直爬虫在处理大量数据信息时的效率,增强对对采用了延迟加载的动态HTML页面的抓取能力,对于页面下载逻辑和分析处理逻辑进行有效地管理和扩展,对网站主的爬虫防御策略提供有效地规避。

【技术实现步骤摘要】

本专利技术涉及网络数据传输方法,具体来说涉及。
技术介绍
随着互联网的发展,互联网中包含的信息内容越来越多,搜索引擎可以帮助人们在海量信息中寻找自己感兴趣的内容,一般的搜索引擎,如百度、Google和Bing等,都是面向所有用户提供互联网内容搜索服务。这些搜索引擎需要通过爬虫技术不断地从互联网上获取信息,并将这些信息保存起来,以便人们方便地检索这些信息。由于需要爬取的数据量巨大,因此大规模的搜索引擎往往采取分布式处理机制,即建立分布式爬虫服务系统。这些爬虫从统一的下载队列中获取目标URL,然后将目标网页下载存储到指定的位置。搜索引擎越来越多,这些搜索引擎的爬虫不断地获取网站的内容,网站系统的压力越来越大,1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即Robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclus1n Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。由于人们在信息检索时都带有明确的目标,而一般的搜索本文档来自技高网...

【技术保护点】
一种分布式垂直爬虫服务系统的优化方法,其特征在于:将原有的爬虫服务系统拆分为下载服务和页面分析逻辑两部分,且将该下载服务和分析逻辑均部署在多个云主机上,任务队列也拆分为下载任务队列和分析任务队列。

【技术特征摘要】

【专利技术属性】
技术研发人员:闫峰李桂兵魏继超
申请(专利权)人:广州极数宝数据服务有限公司
类型:发明
国别省市:广东;44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1