The invention discloses a method, a device and a system for crawling web pages, designed for the Internet field and used for crawling web pages. The method of the invention comprises: acquiring crawler crawling hypertext transfer protocol HTTP address detection; the HTTP address is abnormal; when detecting the abnormal HTTP address, according to the preset rules to modify the HTTP address; HTTP address will be sent to the modified default domain name system DNS server, so that the the default DNS server according to the modified HTTP address corresponding to the IP address, the IP address and the HTTP address corresponding to the preset receiving; sent by the DNS server IP address, access to the IP address to take up the HTTP address of the web page.
【技术实现步骤摘要】
本专利技术涉及互联网领域,尤其涉及一种爬取网站页面的方法、装置及系统。
技术介绍
网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。在爬虫爬取网站页面内容期间,对于网站域名的DNS(DomainNameSystem,域名系统)解析工作是非常重要的。一个DNS域名的解析工作通常是将网站的域名转换为IP(InternetProtocol,互联网)地址,但是在DNS解析域名IP的过程中可能存在各种隐患。例如,当DNS服务器遭到污染时(例如受到黑客攻击),DNS服务器对于一些网站域名的IP指向会被篡改,会导致爬虫根据错误的IP地址,爬取错误的地址页面。专利技术人在实现本专利技术的过程中,发现至少存在如下问题:当DNS服务器遭到污染、导致对于一些网站域名的IP指向被篡改时,无法根据域名获取正确IP地址。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的爬取网站页面的方法、装置及系统。一方面,本专利技术提供一种爬取网站页面的方法,所述方法包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。另一方面,本专利技术提供了一种爬取网站页面的装置,所述装置包括 ...
【技术保护点】
一种爬取网站页面的方法,其特征在于,包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。
【技术特征摘要】
1.一种爬取网站页面的方法,其特征在于,包括:获取爬虫爬取的超文本传输协议HTTP地址;检测所述HTTP地址是否异常;当检测到所述HTTP地址异常时,按照预设规则修改所述HTTP地址;将修改后的HTTP地址发送至预设域名系统DNS服务器,以使所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,所述IP地址与所述HTTP地址相对应;接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面。2.根据权利要求1所述的爬取网站页面的方法,其特征在于,所述检测所述HTTP地址是否异常,包括:检测所述HTTP网址是否存在无法正确访问的记录;当检测到所述HTTP网址存在无法正确访问的记录时,确定所述HTTP网址存在异常。3.根据权利要求1或2所述的爬取网站页面的方法,其特征在于,所述按照预设规则修改所述HTTP地址,包括:获取所述预设DNS服务器的地址;将所述预设DNS服务器的地址添加到所述HTTP地址中,得到修改后的HTTP地址;所述将修改后的HTTP地址发送至预设域名系统DNS服务器,包括:基于所述修改后的HTTP地址中的所述预设DNS服务器的地址,确定所述预设DNS服务器,将所述修改后的HTTP地址发送至所述预设DNS服务器。4.根据权利要求3所述的爬取网站页面的方法,其特征在于,所述预设DNS服务器是运行正常的DNS服务器,所述DNS服务器具备执行正确域名解析的能力;所述预设DNS服务器根据所述修改后的HTTP地址得到对应的IP地址,包括:所述预设DNS服务器对所述修改后的HTTP地址进行解析,得到所述爬虫爬取的所述HTTP地址,查找与所述HTTP地址对应的IP地址。5.根据权利要求4所述的爬取网站页面的方法,所述接收所述预设DNS服务器发送的IP地址,访问所述IP地址以爬取所述HTTP地址对应的网站页面,包括:接收所述预设DNS服务器采用HTTP302协议发送的所述IP地址;根据所述IP地址跳转至相应网站页面。6.一种爬取网站页面的装置,其特征在于,包括:获取单元,用于获取...
【专利技术属性】
技术研发人员:杨杰,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。