The invention discloses a method and a device for crawling web pages, relating to the technical field of data processing, and improving the crawling efficiency of a specific link web page. The main technical scheme of the invention is that a crawler program receives the crawler crawler task, tasks including the need to crawl the page for URL; with the URL, the success of the URL matching rules corresponding to the regional limit rules from the preset rule table, storing the preset rules described in the table with a plurality of URL matching rules, each URL matching rules corresponding to at least one area restriction rules, the regional limit rules for limiting the crawler in the corresponding URL page to crawl links; extraction and matching with the region limit rules of links from the URL corresponding to the page; the corresponding link up the extraction \. The invention is mainly used for crawling web data.
【技术实现步骤摘要】
网页爬取方法及装置
本专利技术涉及数据处理
,尤其涉及一种网页爬取方法及装置。
技术介绍
爬虫是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取更深的其它未知的链接,以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序。目前,如果爬虫需要对网页中的某些特定链接进行爬取,比如爬取新浪主页上的有关于新闻内容的链接,现有爬虫的做法会将新浪主页中所有的链接全部抽取出来,然后对属于新闻内容的链接做出特殊标记,在做出特殊标签之后,爬取新浪主页中全部链接对应的网页内容,最后检索出带有特殊标记链接对应的网页内容,以此实现对网页中的某些特定链接进行爬取,因此现有爬取网页中特定链接对应内容的效率较低。
技术实现思路
鉴于上述问题,提出了本专利技术,以便提供一种克服上述问题或者至少部分地解决上述问题的网页爬取方法及装置。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术实施例提供了一种网页爬取方法,该方法包括:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。另一方面,本专利技术实施例还提供一种网页爬取装置,该装置包括:接收单元,用于接收爬 ...
【技术保护点】
一种网页爬取方法,其特征在于,包括:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。
【技术特征摘要】
1.一种网页爬取方法,其特征在于,包括:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。2.根据权利要求1所述的方法,其特征在于,所述预置规则表中还存储有多个域名,每个域名至少对应一个URL匹配规则,所述从预置规则表中获取与所述URL匹配成功的URL规则对应的区域限制规则之前,所述方法还包括:提取所述URL的域名;从所述预置规则表中获取与所述URL的域名匹配的域名;所述从预置规则表中获取与所述URL匹配成功的URL规则对应的区域限制规则包括:从所述获取的域名对应的URL匹配规则中,获取与所述URL匹配成功的URL规则对应的区域限制规则。3.根据权利要求2所述的方法,其特征在于,所述爬虫程序接收爬虫任务之后,所述方法还包括:判断所述爬虫任务是否设置了区域爬取限制功能;所述提取所述URL的域名包括:若所述爬虫任务设置了区域爬取限制功能,则提取所述URL的域名。4.根据权利要求1-3任一所述的方法,其特征在于,从所述URL对应的页面中提取与所述区域限制规则匹配的链接之后,所述方法还包括:对所述提取的链接进行去重处理;所述爬取...
【专利技术属性】
技术研发人员:李可欣,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。