一种基于内存数据库的分布式爬虫框架及实现方法技术

技术编号：17779910 阅读：48 留言：0更新日期：2018-04-22 08:31

本发明专利技术公开了一种基于内存数据库的分布式爬虫框架及实现方法，所述的分布式爬虫框架包括以下模块：生产者爬虫、消费者爬虫、过滤器以及内存数据库、消息队列、存储介质，每个模块均可以单独运行、解耦合，互不干扰，而且各个模块均易于扩展。本分布式爬虫的实现方法具有以下优点：内存使用可控，不会随着URL不断增加而改变；调度快，在URL不断增加的情况下，不会降低任务调度速率；爬虫高效，分布式多节点爬取，扩展简单、自由度高；数据存储高效、安全。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于内存数据库的分布式爬虫框架及实现方法
本专利技术属于计算机数据挖掘的
，具体地说，涉及一种基于内存数据库的分布式爬虫框架及实现方法。
技术介绍
如今我们正生活在一个信息爆炸的年代，随着互联网行业迅猛发展，这些信息每年以指数级增长。如何使用网络爬虫技术高效的爬取web中的数据成为一个严峻的问题，而单机爬虫不仅受到网络带宽、服务器配置等环境限制，并且很难在多个单机爬虫间进行协作，继而保证数据抓取过程中无重复请求，以及数据信息的唯一性。因此，将网络爬虫采取分布式协作方式进行设计可以大大提高爬取数据的效率。分布式网络爬虫在当今社会已经有了比较广泛的应用，例如Google和百度所使用的网络爬虫就采用了分布式系统，但是很少的想关信息进行交流，目前国外使用较多的分布式爬虫有Mercator、GoogleCrawler、UbiCrwaler、InternetArchiveCrawler等，国内比较著名的是WebGather。Google的分布式网络爬虫系统是一台中央主机和三台负责爬虫的机器，并且这三台机器只与中央主机通信。中央主机从一个文件系统中读取URL，并把它们...
一种基于内存数据库的分布式爬虫框架及实现方法

【技术保护点】
一种基于内存数据库的分布式爬虫框架及实现方法，其特征是：所述的分布式爬虫框架包括以下模块：生产者爬虫、消费者爬虫、过滤器以及内存数据库、消息队列、存储介质；所述的分布式爬虫实现方法包括以下步骤：a、根据项目所需要的数据信息，生产者爬虫不断地从网络中提取相应的url地址；b、过滤器将生产者爬虫提取的url进行去重处理；c、内存数据库存储去重处理后的种子url队列，同时存储过滤器的位数组，并且向消费者爬虫调度分配url任务；d、消费者爬虫循环地向内存数据库请求url任务，根据url地址进行实际的数据抓取，抓取数据后将数据保存至存储介质，并且在数据抓取过程中提取出待爬取的url，将爬取的url交给过...

【技术特征摘要】
1.一种基于内存数据库的分布式爬虫框架及实现方法，其特征是：所述的分布式爬虫框架包括以下模块：生产者爬虫、消费者爬虫、过滤器以及内存数据库、消息队列、存储介质；所述的分布式爬虫实现方法包括以下步骤：a、根据项目所需要的数据信息，生产者爬虫不断地从网络中提取相应的url地址；b、过滤器将生产者爬虫提取的url进行去重处理；c、内存数据库存储去重处理后的种子url队列，同时存储过滤器的位数组，并且向消费者爬虫调度分配url任务；d、消费者爬虫循环地向内存数据库请求url任务，根据url地址进行实际的数据抓取，抓取数据后将数据保存至存储介质，并且在数据抓取过程中提取出待爬取的url，将爬取的url交给过滤器处理；e、存储介质持久化保存实际数据、存储消费者爬虫抓取的原始数据。2.根据权利要...

【专利技术属性】
技术研发人员：尹学渊，罗剑锋，何林，
申请(专利权)人：成都嗨翻屋文化传播有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人