一种基于Kafka和Quartz的分布式爬虫架构及其实现方法技术

技术编号：14924650 阅读：713 留言：0更新日期：2017-03-30 16:43

本发明专利技术公开了一种基于Kafka和Quartz的分布式爬虫架构及其实现方法，属于计算机数据挖掘技术领域，本发明专利技术要解决的技术问题为如何能够通过单机爬虫框架结合分布式工具完成分布式爬虫的需求，实现爬取队列消息的多节点分发以及定时爬取。技术方案为：（1）、一种基于Kafka和Quartz的分布式爬虫架构，该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台。（2）、一种基于Kafka和Quartz的分布式爬虫架构的实现方法，包括如下步骤：（1）、通过前端控制台的页面设定爬取入口、爬取规则、爬取结果存储方式以及调度规则的参数，同时选择要部署的集群节点进行部署。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机数据挖掘
，具体地说是一种基于Kafka和Quartz的分布式爬虫架构及其实现方法。
技术介绍
网络爬虫是搜索引擎技术的基础组成部分。网络爬虫技术是从一个或若干个初始网页的URL（UniformResourceLocator，统一资源定位符）开始，活的初始网页上的URL，在抓取网页信息的过程中，根据网页的抓取策略，不断从当前页面上抽取新的URL放入队列，直到满足某种停止条件。然后将抓取到的网页信息存储在搜索引擎的服务器中，从而可以加快用户的搜索速度。随着互联网的爆炸性增长，网络所承载的数据量已经远远超出人们的想象。在大数据时代，面对如此巨大的数据量，如何快速精准的检索信息，如何能够更高效的收集网络信息，显然变得至关重要。为满足上述的要求，作为抓取工具的爬虫必须具备更加优越的性能。具备单一节点的传统爬虫架构无法满足海量数据的抓取需求。因此，便产生了支持高并发，多节点分布式部署的分布式爬虫架构。对于分布式爬虫来说，其中有两个需要解决的重点问题是：一，爬取队列消息的多节点分发问题；二，定时爬取问题；对于解决上述两个问题，不同的分布式爬虫架构有不同的解决方案，就目前来讲，因为分布式爬虫架构往往是各个公司的核心机密，所以一般不会公开分布式爬虫的具体实现细节。已经开源的常用的分布式爬虫包括GoogleCrawler,Mercator,Nutch等，但开源分布式爬虫缺乏一定的定制性，不能很好的满足多变的爬取需求。是否可以利用已有的成熟的单机爬虫框架结合分布式工具完成分布式爬虫的需求，使其可以满足...
一种基于Kafka和Quartz的分布式爬虫架构及其实现方法

【技术保护点】
一种基于Kafka和Quartz的分布式爬虫架构，其特征在于：该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台；所述基础爬虫组件是基于开源的单机爬虫组件，包括页面解析生成URL、URL过滤器和页面爬取；所述URL存储队列，采用内存数据库，内存数据库用来存储待爬取以及已经爬取完成的URL消息队列，实现分布式爬虫的增量爬取；所述基于Kafka的消息分发机制，采用生产者‑消费者异步请求处理机制，一个生产者对应N个消费者，分别部署于不同的节点；生产者负责产生待爬取的URL消息队列，而消费者负责从待爬取队列中获取URL消息队列进行爬取，并将已完成的爬取存入已爬取队列；所述基于Quartz的作业调度机制，负责完成对分布式爬虫架构的爬取作业的调度，爬取作业分为生产者作业和消费者作业两种类型，使用不同的作业调度规则进行调度；所述前端控制台，负责完成对分布式爬虫的管理以及定制。

【技术特征摘要】
1.一种基于Kafka和Quartz的分布式爬虫架构，其特征在于：该爬虫架构包括基础爬虫组件、URL存储队列、基于Kafka的URL消息分发机制、基于Quartz的爬虫作业调度机制和前端控制台；
所述基础爬虫组件是基于开源的单机爬虫组件，包括页面解析生成URL、URL过滤器和页面爬取；
所述URL存储队列，采用内存数据库，内存数据库用来存储待爬取以及已经爬取完成的URL消息队列，实现分布式爬虫的增量爬取；
所述基于Kafka的消息分发机制，采用生产者-消费者异步请求处理机制，一个生产者对应N个消费者，分别部署于不同的节点；生产者负责产生待爬取的URL消息队列，而消费者负责从待爬取队列中获取URL消息队列进行爬取，并将已完成的爬取存入已爬取队列；
所述基于Quartz的作业调度机制，负责完成对分布式爬虫架构的爬取作业的调度，爬取作业分为生产者作业和消费者作业两种类型，使用不同的作业调度规则进行调度；
所述前端控制台，负责完成对分布式爬虫的管理以及定制。
2.根据权利要求1所述的一种基于Kafka和Quartz的分布式爬虫架构，其特征在于：所述页面解析生成URL负责从当前页面中提取URL链接。
3.根据权利要求1或2所述的一种基于Kafka和Quartz的分布式爬虫架构，其特征在于：所述URL过滤器负责根据爬取规则将产生URL链接进行过滤，得到符合规则的URL链接。
4.根据权利要求3所述的一种基于Kafka和Quartz的分布式...

【专利技术属性】
技术研发人员：甄教明，王茂帅，于文才，高峰，柳廷娜，
申请(专利权)人：浪潮软件股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人