一种爬虫的爬取方法及装置制造方法及图纸

技术编号：16456033 阅读：42 留言：0更新日期：2017-10-25 20:35

本发明专利技术公开了一种爬虫的爬取方法及装置，主要目的是提高了爬虫爬取过程中网址检查的速度，同时提高了检查的准确性。所述方法包括：获取待爬取域名，对所述待爬取域名进行域名解析，根据解析的结果判断所述待爬取域名与预置域名是否相同，对与所述预置域名相同的待爬取域名进行爬取。本发明专利技术主要用于域名的解析。

Crawler crawling method and device

The invention discloses a crawler crawling method and device, whose main purpose is to improve the speed of checking URLs in crawler crawling process, and to improve the accuracy of inspection. The method comprises: acquiring to crawl the domain name, the domain name domain name to be got, whether the domain name and domain name to climb from the preset is the same according to the analytical results, the same with the preset domain name domain name to be crawling crawling. The invention is mainly used for the analysis of domain names.

全部详细技术资料下载

【技术实现步骤摘要】
一种爬虫的爬取方法及装置
本专利技术涉及互联网
，尤其涉及一种爬虫的爬取方法及装置。
技术介绍
域名是互联网上企业机构的名字，是互联网上各个网站之间相互联系的地址，一般由前缀、主域名、顶级域名组成，例如www.sina.com.cn，前缀是www，主域名是sina，顶级域名是com.cn，通常，对于一个给定的域名，顶级域名用来标识网站的类型，例如com.cn表示中国商业网站，edu.cn表示中国教育网站；主域名用来标识网站的名称，是不同网站之间最明显的差异，例如sina表示新浪，sohu表示搜狐；前缀的命名则相对宽松，一般由网站的管理员决定，例如常见的www，百度百科baike等等。现有的爬虫技术在进行爬取工作过程中，针对特定的需求往往需要爬取某个网站主域名和顶级域名相同的页面，然而在应用爬虫爬取某个网站的页面时，网站内或多或少会存在其他网站的链接，而这些通过爬虫爬取到的链接并非我们所预期的目标。通常通过设置一个过滤装置对待爬取的网址进行检查，剔除不符合我们预期目标的网址。目前一般采用人工检测方法或者字符串匹配方法进行检查。然而，人工检测方法在面对大数据背景下人工成本高，同时检查速度较慢；而字符串匹配方法只能检测出域名之间的相同部分和不同部分，并不能准确识别出域名的各组成部分，影响了检查的准确性。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种爬虫的爬取方法及装置，提高了爬虫爬取过程中网址检查的速度，同时提高了检查的准确性。一方面，本专利技术提供了一种爬虫的爬取方法，包括：获取待爬取域名；对所述待爬取...

【技术保护点】
一种爬虫的爬取方法，其特征在于，包括：获取待爬取域名；对所述待爬取域名进行域名解析，根据解析的结果判断所述待爬取域名与预置域名是否相同；对与所述预置域名相同的待爬取域名进行爬取。

【技术特征摘要】
1.一种爬虫的爬取方法，其特征在于，包括：获取待爬取域名；对所述待爬取域名进行域名解析，根据解析的结果判断所述待爬取域名与预置域名是否相同；对与所述预置域名相同的待爬取域名进行爬取。2.根据权利要求1所述的方法，其特征在于，所述获取待爬取域名，包括：获取所述待爬取页面的html源码；解析所述html源码，得到所述待爬取页面的网址；将所述待爬取页面的网址作为待爬取域名。3.根据权利要求1所述的方法，其特征在于，所述对所述待爬取域名进行域名解析，包括：通过域名管理机构获取顶级域名库，所述顶级域名库中包括已注册的顶级域名；根据所述顶级域名库和所述待爬取域名，识别所述待爬取域名的顶级域名；根据所述识别出的顶级域名，得到所述待爬取域名的主域名和前缀。4.根据权利要求3所述的方法，其特征在于，所述根据所述顶级域名库和所述待爬取域名，识别所述待爬取域名的顶级域名，包括：以分隔符对所述待爬取域名进行分段，将所述待爬取域名的最后一个分段作为当前待解析分段；识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域名；若所述顶级域名库中存在与所述当前待解析分段相同的顶级域名，则将所述当前待爬取域名的分段由后往前递加一个分段作为更新的当前待解析分段，并重复执行所述识别所述顶级域名库中是否存在与所述当前待解析分段相同的顶级域名的步骤，直到识别出所述顶级域名库中不存在与所述当前待解析分段相同的顶级域名为止，并将最后一次识别出的顶级域名作为所述待爬取域名的顶级域名。5.根据权利要求4所述的方法，其特征在于，所述根据所述识别出的顶级域名，得到所述待爬取域名的主域名和前缀，包括：将所述识别出的顶级域名的前一个分段作为所述待爬取域名的主域名；将所述待爬取域名中除去所述识别出的顶级域名和主域名后得到所述待爬取域名的前缀。6.根据权利要求5所述的方法，其特征...

【专利技术属性】
技术研发人员：潘峰，孙德彬，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人