一种用于网络爬虫系统的网页内容抓取方法及装置制造方法及图纸

技术编号：9336271 阅读：175 留言：0更新日期：2013-11-13 15:38

本申请的实施例公开了一种用于网络爬虫系统的网页内容抓取方法及装置，所述方法首先构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；然后通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。本申请的实施例充分利用了大网站的布局特点，通过域名系统DNS查询工具，获取到各个大网站分布在全国各地的CDN结点的IP地址，或者其提供轮询服务的多个IP地址，然后把这些IP地址对应的服务器作为独立的服务器进行抓取，从而提高了对大网站的抓取效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于网络爬虫系统的网页内容抓取方法及装置
本专利技术涉及计算机、互联网
，尤其涉及一种用于网络爬虫系统的网页内容抓取方法及装置。
技术介绍
网络爬虫（又被称为网页蜘蛛，网络机器人等），是一种按照一定的规则自动的抓取互联网上的网页的程序或者脚本，它们的行为被称为网页抓取或蜘蛛爬行。由于网络上的HTML文档使用超链接连接了起来，就像组成了一张网，因此，网络爬虫可以顺着这张网爬行，每到一个网页就利用抓取程序将这个网页抓下来，并将其中的超链接抽取出来，作为进一步爬行的线索。一般来说，网络爬虫都是从一组要访问的URL（统一资源定位符，或简称网址）链接开始，可以称这些URL为种子。爬虫访问这些链接，并辨认出这些页面中的所有超链接，然后将这些超链接添加到一个URL列表中，再按照一定的策略反复访问这些列表中的URL链接。然而，现有的网络爬虫系统经常会遇到的一个问题是，对于一些比较大的网站，无法在较短的时间内将其内容全部抓取完，这是因为网络爬虫在爬取网页的过程中，需要遵守一定的礼仪规范，不能对同一个网站进行过于频繁的抓取，否则会给对方网站的服务器造成过大的压力，严重时可能...
一种用于网络爬虫系统的网页内容抓取方法及装置

【技术保护点】
一种用于网络爬虫系统的网页内容抓取方法，其特征在于，包括如下步骤：构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。

【技术特征摘要】
1.一种用于网络爬虫系统的网页内容抓取方法，其特征在于，包括如下步骤：构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；所述与预设网站的域名对应的多个IP地址，包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址；通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。2.如权利要求1所述的方法，其特征在于，所述IP地址数据库根据所述网络爬虫系统的查询，从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。3.如权利要求2所述的方法，其特征在于，所述预设规则包括随机返回一个IP地址。4.如权利要求2所述的方法，其特征在于，所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。5.一种用于网络爬虫系统...

【专利技术属性】
技术研发人员：孙杰，蔡同利，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人