爬取网站页面的方法、装置、系统和存储介质制造方法及图纸

技术编号:15298907 阅读:68 留言:0更新日期:2017-05-12 00:34
本发明专利技术公开了一种爬取网站页面的方法、装置及系统,设计互联网领域,用于爬取网站页面。本发明专利技术提供的方法包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。

Method, device and system for crawling web pages

The invention discloses a method, a device and a system for crawling web pages, designed for the Internet field and used for crawling web pages. The method of the invention comprises: acquiring crawler crawling hypertext transfer protocol HTTP address detection; the HTTP address is abnormal; when detecting the abnormal HTTP address, according to the preset rules to modify the HTTP address; HTTP address will be sent to the modified default domain name system DNS server, so that the the default DNS server according to the modified HTTP address corresponding to the IP address, the IP address and the HTTP address corresponding to the preset receiving; sent by the DNS server IP address, access to the IP address to take up the HTTP address of the web page.

【技术实现步骤摘要】

本专利技术涉及互联网领域,尤其涉及一种爬取网站页面的方法、装置及系统。
技术介绍
网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。在爬虫爬取网站页面内容期间,对于网站域名的DNS(DomainNameSystem,域名系统)解析工作是非常重要的。一个DNS域名的解析工作通常是将网站的域名转换为IP(InternetProtocol,互联网)地址,但是在DNS解析域名IP的过程中可能存在各种隐患。例如,当DNS服务器遭到污染时(例如受到黑客攻击),DNS服务器对于一些网站域名的IP指向会被篡改,会导致爬虫根据错误的IP地址,爬取错误的地址页面。专利技术人在实现本专利技术的过程中,发现至少存在如下问题:当DNS服务器遭到污染、导致对于一些网站域名的IP指向被篡改时,无法根据域名获取正确IP地址。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的爬取网站页面的方法、装置及系统。一方面,本专利技术提供一种爬取网站页面的方法,所述方法包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。另一方面,本专利技术提供了一种爬取网站页面的装置,所述装置包括:获取单元,用于获取爬虫爬取的超文本传输协议HTTP地址;检测单元,用于检测所述获取单元获取的所述HTTP地址是否异常;修改单元,用于当所述检测单元检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;发送单元,用于将所述修改单元修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;访问单元,用于接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。借由上述技术方案,本专利技术提供的爬取网站页面的方法、装置及系统,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例中的一种爬取网站页面的方法流程示意图;图2示出了本专利技术实施例中的另一种爬取网站页面的方法流程示意图;图3示出了本专利技术实施例中的一种爬取网站页面的装置框图;图4示出了本专利技术实施例中的另一种爬取网站页面的装置框图;图5示出了本专利技术实施例中的一种爬取网站页面的系统框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种爬取网站页面的方法,本实施例提供的方法适合应用于爬虫服务器,即部署有爬虫的服务器。值得说明的是,本实施例提供的方法稍作适应性修改,也可以适用于其他部署有爬虫的网络设备,对此不做限定。为了便于理解,本实施例以爬虫服务器为例进行说明。如图1所示,本实施例提供的方法包括:101、爬虫服务器获取爬虫爬取的HTTP(HyperTextTransferProtocol,超文本传输协议)地址。其中,爬虫爬取的HTTP地址中包括待访问页面的域名。102、爬虫服务器检测所述HTTP地址是否异常。例如,当所述HTTP地址在一些区域无法正常访问时,可以判定所述HTTP地址发生异常。103、当检测到所述HTTP地址异常时,爬虫服务器按照预设规则修改所述HTTP地址。104、爬虫服务器将修改后的HTTP地址发送至预设DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应。105、爬虫服务器接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。本实施例中,所述HTTP地址是指爬虫爬取的地址。本专利技术提供的爬取网站页面的方法,当爬虫爬取的HTTP地址异常时,可以将该HTTP地址转发到预设DNS服务器,从所述预设DNS服务器获取与所述HTTP地址对应的正确的IP地址,从而使得所述爬虫爬取正确的网站页面内容。基于图1所示实施例,本实施例还提供一种爬取网站页面的方法,如图2所示,所述方法包括:201、爬虫服务器获取爬虫爬取的HTTP地址。为了便于理解,本实施例以爬虫爬取到的HTTP地址为“http://www.baidu.com/index.htm”为例进行说明。202、检测所述HTTP网址是否存在无法正确访问的记录,即检测“http://www.baidu.com/index.htm”是否存在无法正确访问的记录。203、当检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。例如,当检测到存在“http://www.baidu.com/index.htm”在一些省份区域无法正常访问时,则判定该网址存在异常。值得说明的是,步骤203由监控模块执行,所述监控模块用于监控网址在不同区域的访问情况。所述监控模块可以是一个独立的、与爬虫服务器联通的设备,也可以是配置在爬虫服务器上的一个功能模块,本实施例不做限定。204、当检测到所述HTTP地址异常时,获取预设DNS服务器的地址,爬虫服务器将所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址。其中,所述预设DNS服务器是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力。例如,一种可能的修改方式是,修改后的HTTP地址为“http://预设DNS服务器的IP地址/getHostPage?host=www.baidu.com&address=http://www.baidu.com/index.htm”例如,预设DNS服务器的地址为“192.168.3.133”,则修改后的HTTP地址为“http://192.168.3.133/getHostPage?host=www.baidu.com&address=http://www.baidu.com/index.htm”。205、爬虫服务器基于所述修改后的本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/62/201510728918.html" title="爬取网站页面的方法、装置、系统和存储介质原文来自X技术">爬取网站页面的方法、装置、系统和存储介质</a>

【技术保护点】
一种爬取网站页面的方法,其特征在于,包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。

【技术特征摘要】
1.一种爬取网站页面的方法,其特征在于,包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。2.根据权利要求1所述的爬取网站页面的方法,其特征在于,所述检测所述HTTP地址是否异常,包括:检测所述HTTP网址是否存在无法正确访问的记录;当检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。3.根据权利要求1或2所述的爬取网站页面的方法,其特征在于,所述按照预设规则修改所述HTTP地址,包括:获取所述预设DNS服务器的地址;将所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;所述将修改后的HTTP地址发送至预设域名系统DNS服务器,包括:基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送至所述预设DNS服务器。4.根据权利要求3所述的爬取网站页面的方法,其特征在于,所述预设DNS服务器是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力;所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,包括:所述预设DNS服务器对所述修改后的HTTP地址进行解析,得到所述爬虫爬取的所述HTTP地址,查找与所述HTTP地址对应的IP地址。5.根据权利要求4所述的爬取网站页面的方法,所述接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面,包括:接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址;根据所述IP地址跳转至相应网站页面。6.一种爬取网站页面的装置,其特征在于,包括:获取单元,用于获取...

【专利技术属性】
技术研发人员:杨杰
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1