【技术实现步骤摘要】
一种用于网络爬虫系统的网页内容抓取方法及装置
本专利技术涉及计算机、互联网
,尤其涉及一种用于网络爬虫系统的网页内容抓取方法及装置。
技术介绍
网络爬虫(又被称为网页蜘蛛,网络机器人等),是一种按照一定的规则自动的抓取互联网上的网页的程序或者脚本,它们的行为被称为网页抓取或蜘蛛爬行。由于网络上的HTML文档使用超链接连接了起来,就像组成了一张网,因此,网络爬虫可以顺着这张网爬行,每到一个网页就利用抓取程序将这个网页抓下来,并将其中的超链接抽取出来,作为进一步爬行的线索。一般来说,网络爬虫都是从一组要访问的URL(统一资源定位符,或简称网址)链接开始,可以称这些URL为种子。爬虫访问这些链接,并辨认出这些页面中的所有超链接,然后将这些超链接添加到一个URL列表中,再按照一定的策略反复访问这些列表中的URL链接。然而,现有的网络爬虫系统经常会遇到的一个问题是,对于一些比较大的网站,无法在较短的时间内将其内容全部抓取完,这是因为网络爬虫在爬取网页的过程中,需要遵守一定的礼仪规范,不能对同一个网站进行过于频繁的抓取,否则会给对方网站的服务器造成过大的压力,严重时可能 ...
【技术保护点】
一种用于网络爬虫系统的网页内容抓取方法,其特征在于,包括如下步骤:构建一IP地址数据库,记录有预设网站的域名及与该域名对应的多个IP地址;通过查询所述IP地址数据库,将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。
【技术特征摘要】
1.一种用于网络爬虫系统的网页内容抓取方法,其特征在于,包括如下步骤:构建一IP地址数据库,记录有预设网站的域名及与该域名对应的多个IP地址;所述与预设网站的域名对应的多个IP地址,包括该网站的内容分发网络CDN节点的IP地址和/或域名系统DNS轮询的IP地址;通过查询所述IP地址数据库,将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。2.如权利要求1所述的方法,其特征在于,所述IP地址数据库根据所述网络爬虫系统的查询,从与其查询的域名对应的多个IP地址中根据预设规则返回一个IP地址。3.如权利要求2所述的方法,其特征在于,所述预设规则包括随机返回一个IP地址。4.如权利要求2所述的方法,其特征在于,所述预设规则包括根据记录顺序返回上一次返回的IP地址的下一个IP地址。5.一种用于网络爬虫系统...
【专利技术属性】
技术研发人员:孙杰,蔡同利,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。