网页爬取方法及装置制造方法及图纸

技术编号:15999408 阅读:82 留言:0更新日期:2017-08-15 14:11
本发明专利技术公开了一种网页爬取方法及装置,涉及数据处理技术领域,提高了对特定链接网页的爬取效率。本发明专利技术的主要技术方案为:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。本发明专利技术主要用于爬取网页数据。

Method and device for crawling web pages

The invention discloses a method and a device for crawling web pages, relating to the technical field of data processing, and improving the crawling efficiency of a specific link web page. The main technical scheme of the invention is that a crawler program receives the crawler crawler task, tasks including the need to crawl the page for URL; with the URL, the success of the URL matching rules corresponding to the regional limit rules from the preset rule table, storing the preset rules described in the table with a plurality of URL matching rules, each URL matching rules corresponding to at least one area restriction rules, the regional limit rules for limiting the crawler in the corresponding URL page to crawl links; extraction and matching with the region limit rules of links from the URL corresponding to the page; the corresponding link up the extraction \. The invention is mainly used for crawling web data.

【技术实现步骤摘要】
网页爬取方法及装置
本专利技术涉及数据处理
,尤其涉及一种网页爬取方法及装置。
技术介绍
爬虫是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取更深的其它未知的链接,以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序。目前,如果爬虫需要对网页中的某些特定链接进行爬取,比如爬取新浪主页上的有关于新闻内容的链接,现有爬虫的做法会将新浪主页中所有的链接全部抽取出来,然后对属于新闻内容的链接做出特殊标记,在做出特殊标签之后,爬取新浪主页中全部链接对应的网页内容,最后检索出带有特殊标记链接对应的网页内容,以此实现对网页中的某些特定链接进行爬取,因此现有爬取网页中特定链接对应内容的效率较低。
技术实现思路
鉴于上述问题,提出了本专利技术,以便提供一种克服上述问题或者至少部分地解决上述问题的网页爬取方法及装置。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术实施例提供了一种网页爬取方法,该方法包括:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。另一方面,本专利技术实施例还提供一种网页爬取装置,该装置包括:接收单元,用于接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;获取单元,用于从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;提取单元,用于从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取单元,用于爬取所述提取的链接对应的网页。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供的一种网页爬取方法及装置,爬虫程序首先接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL,然后从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接,之后从所述URL对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页。与目前通过对网页中需要爬取的链接做出特殊标记,然后从爬取的全部链接对应的网页内容中检索出特殊标记链接对应的网页内容相比,本专利技术实施例在接收到爬虫任务后,首先从预置规则表中获取与当前URL匹配成功的URL匹配规则对应的区域限制规则,然后从所述URL对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页,因此通过本专利技术实现的对网页中特殊链接对应网页内容的爬取工作,无需爬取网页中全部链接对应的网页内容,只需对符合预置规则表中规则的链接进行爬取即可,从而本专利技术提高了对特定链接网页的爬取效率。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种网页爬取方法流程图;图2为本专利技术实施例提供的另一种网页爬取方法流程图;图3为本专利技术实施例提供的一种网页爬取装置的组成框图;图4为本专利技术实施例提供的另一种网页爬取装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为使本专利技术技术方案的优点更加清楚,下面结合附图和实施例对本专利技术作详细说明。本专利技术实施例提供了一种网页爬取方法,如图1所示,所述方法包括:101、爬虫程序接收爬虫任务。其中,所述爬虫任务中包括需要爬取页面的URL。102、从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则。其中,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接。需要说明的是,预置规则表中存储的URL匹配规则,和与URL匹配规则对应的区域限制规则是根据用户的实际需求进行预先设定的,用于匹配爬虫任务中的URL。其中,所述URL匹配规则中包括匹配类型和匹配内容,匹配类型具体可为左匹配,右匹配,包含正则匹配等,匹配内容可以是一个字符串或者正则表达式,本专利技术实施例不做具体限定。所述区域限制规则具体可以为路径表达式。例如,爬虫任务中的URL为http://www.sample.com/picture/123.html,预置规则表中的URL匹配规则包括以下几种分别为:左匹配、http://www.sample.com/picture;左匹配、http://www.sample.com/news;左匹配、http://www.sample.com/weather。则将爬虫任务中的URL和预置规则表中的URL匹配规则进行匹配会发现,爬虫任务中的URL和URL匹配规则:左匹配、http://www.sample.com/picture匹配成功。103、从所述URL对应的页面中提取与所述区域限制规则匹配的链接。对于本专利技术实施例,从预置规则表中获取到与所述URL匹配成功的URL匹配规则对应的区域限制规则之后,再从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则。其中,所述区域限制规则具体可以为路径表达式,也可以为匹配类型和匹配内容组合的形式,本专利技术实施例不做具体限定。例如,爬虫任务URL为http://news.sina.com.cn/c/nd/?qq-pf-to=pcqq.c2c,从预置规则表中获取到与爬虫任务URL匹配的URL匹配规则为:左匹配、http://news.sina.com.cn。而在预置规则表中该URL匹配规则对应的区域限制规则为:左匹配、http://blog.sina.com.cn/s/blog。则从所述URL对应的页面中提取与所述区域限制规则匹配的链接,即从爬虫任务URL的页面中提取能够左匹配路径表达式http://blog.sina.com.cn/s/blog的链接。104、爬取所述提取的链接对应的网页。在本专利技术实施例中,当爬虫程序接收到爬虫任务后,首先从预置规则表中获取与当前URL匹配成功的URL匹配规则对应的区域限制规则,然后从所述URL对应的页面中提取与所述区域限制规则匹配的链接,最后爬取所述提取的链接对应的网页,因此通过本专利技术实现的本文档来自技高网...
网页爬取方法及装置

【技术保护点】
一种网页爬取方法,其特征在于,包括:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。

【技术特征摘要】
1.一种网页爬取方法,其特征在于,包括:爬虫程序接收爬虫任务,所述爬虫任务中包括需要爬取页面的URL;从预置规则表中获取与所述URL匹配成功的URL匹配规则对应的区域限制规则,所述预置规则表中存储有多个URL匹配规则,每个URL匹配规则至少对应一个区域限制规则,所述区域限制规则用于限制所述爬虫程序在所述URL对应的页面中将要爬取的链接;从所述URL对应的页面中提取与所述区域限制规则匹配的链接;爬取所述提取的链接对应的网页。2.根据权利要求1所述的方法,其特征在于,所述预置规则表中还存储有多个域名,每个域名至少对应一个URL匹配规则,所述从预置规则表中获取与所述URL匹配成功的URL规则对应的区域限制规则之前,所述方法还包括:提取所述URL的域名;从所述预置规则表中获取与所述URL的域名匹配的域名;所述从预置规则表中获取与所述URL匹配成功的URL规则对应的区域限制规则包括:从所述获取的域名对应的URL匹配规则中,获取与所述URL匹配成功的URL规则对应的区域限制规则。3.根据权利要求2所述的方法,其特征在于,所述爬虫程序接收爬虫任务之后,所述方法还包括:判断所述爬虫任务是否设置了区域爬取限制功能;所述提取所述URL的域名包括:若所述爬虫任务设置了区域爬取限制功能,则提取所述URL的域名。4.根据权利要求1-3任一所述的方法,其特征在于,从所述URL对应的页面中提取与所述区域限制规则匹配的链接之后,所述方法还包括:对所述提取的链接进行去重处理;所述爬取...

【专利技术属性】
技术研发人员:李可欣
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1