【技术实现步骤摘要】
本专利技术涉及网络数据传输方法,具体来说涉及。
技术介绍
随着互联网的发展,互联网中包含的信息内容越来越多,搜索引擎可以帮助人们在海量信息中寻找自己感兴趣的内容,一般的搜索引擎,如百度、Google和Bing等,都是面向所有用户提供互联网内容搜索服务。这些搜索引擎需要通过爬虫技术不断地从互联网上获取信息,并将这些信息保存起来,以便人们方便地检索这些信息。由于需要爬取的数据量巨大,因此大规模的搜索引擎往往采取分布式处理机制,即建立分布式爬虫服务系统。这些爬虫从统一的下载队列中获取目标URL,然后将目标网页下载存储到指定的位置。搜索引擎越来越多,这些搜索引擎的爬虫不断地获取网站的内容,网站系统的压力越来越大,1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即Robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclus1n Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。由于人们在信息检索时都带有明确 ...
【技术保护点】
一种分布式垂直爬虫服务系统的优化方法,其特征在于:将原有的爬虫服务系统拆分为下载服务和页面分析逻辑两部分,且将该下载服务和分析逻辑均部署在多个云主机上,任务队列也拆分为下载任务队列和分析任务队列。
【技术特征摘要】
【专利技术属性】
技术研发人员:闫峰,李桂兵,魏继超,
申请(专利权)人:广州极数宝数据服务有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。