一种爬虫的爬取方法及装置制造方法及图纸

技术编号:16456033 阅读:42 留言:0更新日期:2017-10-25 20:35
本发明专利技术公开了一种爬虫的爬取方法及装置,主要目的是提高了爬虫爬取过程中网址检查的速度,同时提高了检查的准确性。所述方法包括:获取待爬取域名,对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同,对与所述预置域名相同的待爬取域名进行爬取。本发明专利技术主要用于域名的解析。

Crawler crawling method and device

The invention discloses a crawler crawling method and device, whose main purpose is to improve the speed of checking URLs in crawler crawling process, and to improve the accuracy of inspection. The method comprises: acquiring to crawl the domain name, the domain name domain name to be got, whether the domain name and domain name to climb from the preset is the same according to the analytical results, the same with the preset domain name domain name to be crawling crawling. The invention is mainly used for the analysis of domain names.

【技术实现步骤摘要】
一种爬虫的爬取方法及装置
本专利技术涉及互联网
,尤其涉及一种爬虫的爬取方法及装置。
技术介绍
域名是互联网上企业机构的名字,是互联网上各个网站之间相互联系的地址,一般由前缀、主域名、顶级域名组成,例如www.sina.com.cn,前缀是www,主域名是sina,顶级域名是com.cn,通常,对于一个给定的域名,顶级域名用来标识网站的类型,例如com.cn表示中国商业网站,edu.cn表示中国教育网站;主域名用来标识网站的名称,是不同网站之间最明显的差异,例如sina表示新浪,sohu表示搜狐;前缀的命名则相对宽松,一般由网站的管理员决定,例如常见的www,百度百科baike等等。现有的爬虫技术在进行爬取工作过程中,针对特定的需求往往需要爬取某个网站主域名和顶级域名相同的页面,然而在应用爬虫爬取某个网站的页面时,网站内或多或少会存在其他网站的链接,而这些通过爬虫爬取到的链接并非我们所预期的目标。通常通过设置一个过滤装置对待爬取的网址进行检查,剔除不符合我们预期目标的网址。目前一般采用人工检测方法或者字符串匹配方法进行检查。然而,人工检测方法在面对大数据背景下人工成本高,同时检查速度较慢;而字符串匹配方法只能检测出域名之间的相同部分和不同部分,并不能准确识别出域名的各组成部分,影响了检查的准确性。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种爬虫的爬取方法及装置,提高了爬虫爬取过程中网址检查的速度,同时提高了检查的准确性。一方面,本专利技术提供了一种爬虫的爬取方法,包括:获取待爬取域名;对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同;对与所述预置域名相同的待爬取域名进行爬取。另一方面,本专利技术提供了一种爬虫的爬取装置,包括:获取单元,用于获取待爬取域名;解析单元,用于对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同;爬取单元,用于对与所述预置域名相同的待爬取域名进行爬取。借由上述技术方案,本专利技术提供的一种爬虫的爬取方法及装置,首先获取待爬取域名,对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同,这里的判断域名是否相同的方式可以设定,使得爬虫爬取过程中检查的更加符合用户期望,对与所述预置域名相同的待爬取域名进行爬取。与现有技术的爬虫的爬取方法相比,本专利技术通过在爬虫爬取过程中采用域名解析的方法识别出待爬取域名的顶级域名、主域名和前缀后,再对于与预置域名相同的待爬取域名进行爬取,从而过滤了用户不期望获取的域名,提高了爬虫爬取的效率,同时降低了人工成本。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种爬虫的爬取方法流程示意图;图2示出了本专利技术实施例提供的另一种爬虫的爬取方法流程示意图;图3示出了本专利技术实施例提供的一种爬虫的爬取装置结构示意图;图4示出了本专利技术实施例提供的另一种爬虫的爬取装置结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供了一种爬虫的爬取方法流程示意图,如图1所示,所示方法包括:101、获取待爬取域名。其中,所述待爬取域名是通过爬虫爬取的入口网页获取的链接,例如,从网址为www.sina.com.cn的网页获取有关新浪网的内容,通过爬虫技术会爬取到很多链接,这里的链接即为待爬取域名。102、对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同。其中,所述对所述待爬取域名进行域名解析,本专利技术实施例可以采用但不限于以下的方法实现,首先通过域名管理机构获取顶级域名库,所述顶级域名库中包括已注册的顶级域名,然后根据所述顶级域名库和所述待爬取域名,识别所述待爬取域名的顶级域名,最后根据所述识别出的顶级域名,得到所述待爬取域名的主域名和前缀。通过对所述待爬取域名进行域名解析,得到待爬取域名的顶级域名、主域名和前缀。其中,所述根据解析的结果判断所述待爬取域名与预置域名是否相同,本专利技术实施例可以采用但不限于以下的方法实现,根据识别出所述待爬取域名的各个分段,将所述待爬取域名的主域名和顶级域名分别与预置域名的主域名和顶级域名进行对比,判断所述待爬取域名的主域名和顶级域名与所述预置域名的主域名和顶级域名是否相同。需要说明的是,本实施例采用将所述待爬取域名的主域名和顶级域名分别与预置域名的主域名和顶级域名进行对比的方式,在实际应用中也可选择采用将所述待爬取域名的主域名、顶级域名和前缀分别与预置域名的主域名、顶级域名和前缀进行对比的方式,本专利技术对采用对比的方式不做限定。103、对与所述预置域名相同的待爬取域名进行爬取。本专利技术提供的一种爬虫的爬取方法,首先获取待爬取域名,对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同,这里的判断域名是否相同的方式可以设定,使得爬虫爬取过程中检查的更加符合用户期望,对与所述预置域名相同的待爬取域名进行爬取。与现有技术的爬虫的爬取方法相比,本专利技术通过在爬虫爬取过程中采用域名解析的方法识别出待爬取域名的顶级域名、主域名和前缀后,再对于与预置域名相同的待爬取域名进行爬取,从而过滤了用户不期望获取的域名,提高了爬虫爬取的效率,同时降低了人工成本。本专利技术实施例提供了另一种爬虫的爬取方法,如图2所示,所述方法包括:201、获取待爬取域名。本步骤具体包括但不局限于以下方法实现,首先获取所述待爬取页面的html源码;然后解析所述html源码,得到所述待爬取页面的网址,这里的网址包括从该网页上爬取的网址,将所述待爬取页面的网址作为待爬取域名。需要说明的是,上述通过爬虫技术爬取到的网址可能会有很多,这其中有的是用户所需要的目标网址,有的并非用户所期待获取的网址,因此,本专利技术实施例对爬虫爬取的网址进行过滤,从而过滤掉用户不期望获取的网址。202、通过域名管理机构获取顶级域名库。其中,所述顶级域名库中包括已注册的顶级域名,通常每个顶级域名只能有一次注册的机会。例如火狐域名库提供了一个完备的顶级域名库,收录了全球几乎所有注册的顶级域名。这里的域名注册管理机构为负责运营和管理相应的域名系统,每个顶级域名都必须经过域名管理机构的认可,因此,通过域名注册管理机构能够获得一个比较完备的顶级域名库。需要说明的是,这里的顶级域名库可以周期的进行更新,进一步扩大顶级域名库中顶级域名的范围,方便查找。当然为了进一步方便域名查找,可以预先将该顶级域名库进行分组,例如用本文档来自技高网...
一种爬虫的爬取方法及装置

【技术保护点】
一种爬虫的爬取方法,其特征在于,包括:获取待爬取域名;对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同;对与所述预置域名相同的待爬取域名进行爬取。

【技术特征摘要】
1.一种爬虫的爬取方法,其特征在于,包括:获取待爬取域名;对所述待爬取域名进行域名解析,根据解析的结果判断所述待爬取域名与预置域名是否相同;对与所述预置域名相同的待爬取域名进行爬取。2.根据权利要求1所述的方法,其特征在于,所述获取待爬取域名,包括:获取所述待爬取页面的html源码;解析所述html源码,得到所述待爬取页面的网址;将所述待爬取页面的网址作为待爬取域名。3.根据权利要求1所述的方法,其特征在于,所述对所述待爬取域名进行域名解析,包括:通过域名管理机构获取顶级域名库,所述顶级域名库中包括已注册的顶级域名;根据所述顶级域名库和所述待爬取域名,识别所述待爬取域名的顶级域名;根据所述识别出的顶级域名,得到所述待爬取域名的主域名和前缀。4.根据权利要求3所述的方法,其特征在于,所述根据所述顶级域名库和所述待爬取域名,识别所述待爬取域名的顶级域名,包括:以分隔符对所述待爬取域名进行分段,将所述待爬取域名的最后一个分段作为当前待解析分段;识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域名;若所述顶级域名库中存在与所述当前待解析分段相同的顶级域名,则将所述当前待爬取域名的分段由后往前递加一个分段作为更新的当前待解析分段,并重复执行所述识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域名的步骤,直到识别出所述顶级域名库中不存在与所述当前待解析分段相同的顶级域名为止,并将最后一次识别出的顶级域名作为所述待爬取域名的顶级域名。5.根据权利要求4所述的方法,其特征在于,所述根据所述识别出的顶级域名,得到所述待爬取域名的主域名和前缀,包括:将所述识别出的顶级域名的前一个分段作为所述待爬取域名的主域名;将所述待爬取域名中除去所述识别出的顶级域名和主域名后得到所述待爬取域名的前缀。6.根据权利要求5所述的方法,其特征...

【专利技术属性】
技术研发人员:潘峰孙德彬
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1