爬虫系统技术方案

技术编号：13567314 阅读：93 留言：0更新日期：2016-08-20 23:37

本发明专利技术实施例提供一种爬虫系统，包括：网页分析器，用于对网页进行分析，并从DNS服务器获取网页的IP地址，生成爬取任务；任务模块，用于将所述爬取任务存储到任务队列；以及爬虫模块，用于从所述任务队列中获取所述爬取任务，爬取网页数据。本发明专利技术实施例的爬虫系统和爬虫方法，在网页分析中执行DNS查询，避免DNS查询在爬取过程中造成管道阻塞，提高爬虫效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网页搜索技术，尤其涉及一种网页爬虫系统及方法。
技术介绍
网络爬虫是一个自动提取网页的程序，它为搜索引擎从互联网(internet)上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的统一资源定位符(URL)开始，获得初始网页上的URL，然后启动爬虫模块抓取网页，在网页抓取过程中，不断从当前页面上抽取新的URL放入队列并继续进行分析，如此周而复始，直到遍历完整个互联网后者满足系统的一定停止条件时停止。由于爬虫模块在抓取网页数据时，从URL地址，因此需要通过URL获取网页的IP地址以及访问端口，在此过程中，由于非法URL地址可能导致爬虫模块长时间阻塞，导致爬取任务停止，影响整个系统的爬取效率。
技术实现思路
有鉴于此，本专利技术提供一种防止DNS阻塞的爬虫系统和爬虫方法，以解决上述问题。根据本专利技术的一个方面，提供一种爬虫系统，包括：网页分析器，用于对网页进行分析，并从DNS服务器获取网页的IP地址，生成爬取任务；任务模块，用于将所述爬取任务存储到任务队列；以及爬虫模块，用于从所述任务队列中获取所述爬取任务，爬取网页数据。优选地，所述网页分析器和所述爬虫模块在不同的进程或线程中执行。优选地，所述爬虫分析器在本地缓存网页URL地址和IP地址的映射关系，以及将非法域名保存到黑名单。优选地，所述爬虫模块包括：第一调度单元，用于从所述任务队列
获取所述爬取任务，分发到多个工作队列；爬取单元，用于从所述工作队列中获取所述爬取任务，根据所述爬取任务从WEB服务器爬取所述网页数据；配置单元，用于根据配置文件配置所述第一调度单元和爬...

【技术保护点】
一种爬虫系统，其特征在于,包括：网页分析器，用于对网页进行分析，并从DNS服务器获取网页的IP地址，生成爬取任务；任务模块，用于将所述爬取任务存储到任务队列；以及爬虫模块，用于从所述任务模块中获取所述爬取任务，爬取网页数据。

【技术特征摘要】
1.一种爬虫系统，其特征在于,包括：网页分析器，用于对网页进行分析，并从DNS服务器获取网页的IP地址，生成爬取任务；任务模块，用于将所述爬取任务存储到任务队列；以及爬虫模块，用于从所述任务模块中获取所述爬取任务，爬取网页数据。2.根据权利要求1所述的爬虫系统，其特征在于，所述网页分析器和所述爬虫模块在不同的进程或线程中执行。3.根据权利要求2所述的爬虫系统，其特征在于，所述爬虫分析器在本地缓存网页URL地址和IP地址的映射关系，以及将非法域名保存到黑名单。4.根据权利要求1所述的爬虫系统，其特征在于，所述爬虫模块包括：第一调度单元，用于从所述任务队列获取所述爬取任务，分发到多个工作队列；爬取单元，用于从所述工作队列中获取所述爬取任务，根据所述爬取任务从WEB服务器爬取所述网页数据；配置单元，用于根据配置文件配置所述第一调度单元和爬取单元。5.根据权利要求4所述的爬虫系统，其特征在于，所述任务队列和工作队列通过REDIS数据库存储。6.根据权利要求4所述的爬虫系统，其特征在于，所述配置单元启动多个线程执行所述第一调度单元和所述爬取单元，一个所述爬取单元的线程对应一个所述工作队列。7.根据权利要求1所述的爬虫系统，其...

【专利技术属性】
技术研发人员：邹奇峰，
申请(专利权)人：乐视网信息技术北京股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人