【技术实现步骤摘要】
一种分布式垂直业务搜索爬虫框架
本专利技术涉及搜索爬虫框架
,特别涉及一种分布式垂直业务搜索爬虫框架。
技术介绍
大部分网站会针对网络爬虫的行为有一定的预防策略,防止因为过于频繁消耗过多的网络资源和I/O资源,造成网站性能的下降。为了适用反爬虫的规则,爬虫需要更多的IP资源来合理编排任务,将爬取任务分散到网络多台计算机进行。目前公有云越来越普遍,互联网资源成本越来越低,对高资源消耗的网络爬虫来说是提供了一种低成本的解决方案,因此分布式爬虫是在垂直业务搜索中,实现持续无间断爬取的很好的技术手段。因此,专利技术一种分布式垂直业务搜索爬虫框架来解决上述问题很有必要。
技术实现思路
本专利技术的目的在于提供一种分布式垂直业务搜索爬虫框架,通过采用爬虫静态分布形式将同一目标的爬虫按照配置,复制到不同的网络计算机上,采用不同IP资源发出爬取请求,目标页面URL通过消息队列管道汇聚到中心库,中心库负载程序将URL通过消息队列管道推送到网络计算机终端,由监听爬虫执行URL下载任务,本专利技术利用分布式垂直业务搜索爬虫,使用更多的IP资源来合理编排任务,将爬取任务分散到网络多台计 ...
【技术保护点】
1.一种分布式垂直业务搜索爬虫框架,其特征在于:具体步骤如下:步骤一:采用爬虫静态分布形式将同一目标的爬虫按照配置,复制到不同的网络计算机上,然后采用不同IP资源发出爬取请求;步骤二:目标页面URL通过消息队列管道汇聚到中心库;步骤三:中心库负载程序将URL进行调度,并且通过消息队列管道推送到多个网络计算机终端,由监听爬虫进行动态调度执行URL下载任务;步骤四:当URL没有被拒绝访问时,进行索引,递给中心库,中心库进行标记该URL已被执行任务;步骤五:当有网络计算机终端不能执行URL下载任务时,将该URL经消息队列管道反馈给中心库,此时中心库将此URL再次进行调度,重新回到 ...
【技术特征摘要】
1.一种分布式垂直业务搜索爬虫框架,其特征在于:具体步骤如下:步骤一:采用爬虫静态分布形式将同一目标的爬虫按照配置,复制到不同的网络计算机上,然后采用不同IP资源发出爬取请求;步骤二:目标页面URL通过消息队列管道汇聚到中心库;步骤三:中心库负载程序将URL进行调度,并且通过消息队列管道推送到多个网络计算机终端,由监听爬虫进行动态调度执行URL下载任务;步骤四:当URL没有被拒绝访问时,进行索引,递给中心库,中心库进行标记该URL已被执行任务;步骤五:当有网络计算机终端不能执行URL下载任务时,将该URL经消息队列管道反馈给中心库,此时中心库将此URL再次进行调度,重新回到消息队列再次推送到其他的网络计算机终端,再由监听爬虫进行动态调度,执行URL下载任务;步骤六...
【专利技术属性】
技术研发人员:邓炽成,
申请(专利权)人:珠海市智图数研信息技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。