处理爬取网页的方法和装置制造方法及图纸

技术编号:18165543 阅读:38 留言:0更新日期:2018-06-09 11:28
本发明专利技术公开了一种处理爬取网页的方法和装置。其中,该方法包括:确定是否存在待验证的网页的标识信息;根据待验证的网页的标识信息爬取得到网页页面之后,校验爬取得到的网页页面;在爬取得到的网页页面校验通过的情况下,确定待验证的网页爬取成功;将爬取成功的待验证的网页的标识信息保存至过滤器服务。本发明专利技术解决了现有技术中在防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的技术问题。

Processing methods and devices for crawling web pages

The invention discloses a method and device for processing web crawling. The method includes: determining whether there is the identification information of the web page to be verified; after climbing to the page page according to the identification information of the web page to be verifying, the page page is checked by the crawling page. The identifier information of the page to be verified is saved to the filter service. The invention solves the technical problem that when the crawler system is repeatedly crawled, the checkout of the crawling system is not passed but the web page cannot be crawled again.

【技术实现步骤摘要】
处理爬取网页的方法和装置
本专利技术涉及信息
,具体而言,涉及一种处理爬取网页的方法和装置。
技术介绍
在互联网领域,网络爬虫通过分析爬取的网页内容,获取指向其他网页的标识信息,例如网页的URL,从而发现并爬取其他网页,其中,一个网页的URL通常被许多不同的网页引用,为了避免爬虫不断的访问相同的网页,爬虫系统要对待爬取的网页URL做去重工作。特别是针对内容不会变化的网页,比如记录新闻内容的网页,爬虫系统只需爬取一次,之后永远不再爬取。为了避免重复爬取网页,爬虫系统中经常会使用过滤器,例如布隆过滤器,布隆过滤器具有极高空间效率和时间效率,可以用于检索一个元素是否在一个集合中,但是却无法删除一个集合中的特定值。现有的分布式爬虫系统就是通过使用布隆过滤器服务判断一个网页URL是否已经被爬取过。在爬虫准备爬取一个只需爬取一次的网页前,首先检测该网页URL是否已经包含在布隆过滤器所记录的网址集合中,若存在,则认为该网页已经被爬取过了,不再进行爬取;否则将该网页的URL记录到布隆过滤器集合中,防止任意爬虫再次爬取该网页,然后再由该爬虫尝试爬取该网页。但是上述现有技术的防止重复爬取机制存在以下弊端:由于设备、网络、待爬取网站等都有可能出现故障,可能会出现爬虫不能正常的获取到一个网页或者获取到的网页内容有误的情况,而这时该网页的URL已经记录在了布隆过滤器服务中,以后对该网页的爬取都将无法通过布隆过滤器服务的检查,事实上造成了网页的漏爬。通过下面的例子可以更为清楚的说明上述现有技术的不足:假设分布式爬虫系统准备首次爬取一个网页,并且该网页的内容不会更新,只需爬取一次,爬虫系统首先调用布隆过滤器服务查询发现该网页的URL未被爬取过,于是将该网页的URL记录到布隆过滤器服务中,之后爬虫系统将该网页的URL交由某个爬虫客户端具体负责爬取,在接受爬取任务后,爬虫客户端出现故障崩溃,未能将爬取结果提交到爬虫系统,由于该网页的URL已经被记录在布隆过滤器中,虽然爬虫系统未能得到对应的网页的内容,但是之后对这个网页的URL的爬取都会因为布隆过滤器中已存在该网页的URL而放弃,并且布隆过滤器中的记录无法删除,最终导致无法爬取到该网页的内容。针对现有技术中,在防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种处理爬取网页的方法和装置,以至少解决现有技术中在防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的技术问题。根据本专利技术实施例的一个方面,提供了一种处理爬取网页的方法,包括:确定是否存在待验证的网页的标识信息;根据待验证的网页的标识信息爬取得到网页页面之后,校验爬取得到的网页页面;在爬取得到的网页页面校验通过的情况下,确定待验证的网页爬取成功;将爬取成功的待验证的网页的标识信息保存至过滤器服务。根据本专利技术实施例的另一方面,还提供了一种处理爬取网页的装置,包括:确定模块,用于确定是否存在待验证的网页的标识信息;校验模块,用于根据待验证的网页的标识信息爬取得到网页页面之后,校验爬取得到的网页页面;第二确定模块,用于在爬取得到的网页页面校验通过的情况下,确定待验证的网页爬取成功;保存模块,用于将爬取成功的待验证的网页的标识信息保存至过滤器服务。在本专利技术实施例中,采用先校验网页页面后在过滤器服务中记录网页的标识信息的方式,通过校验根据待验证的网页的标识信息爬取得到的网页页面,在校验通过的情况下,确定待验证的网页爬取成功,然后才将待验证的网页的标识信息保存至过滤器服务,达到了在防止爬虫系统重复爬取网页的同时保证网页不被漏爬的目的,从而实现了不漏爬网页的技术效果,进而解决了现有技术中在防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例1的处理爬取网页的方法流程图;图2是根据本专利技术实施例1的一种可选的处理爬取网页的方法流程图;图3是根据本专利技术实施例2的处理爬取网页的装置示意图;图4是根据本专利技术实施例2的一种可选的处理爬取网页的装置示意图;图5是根据本专利技术实施例2的一种可选的处理爬取网页的装置示意图;图6是根据本专利技术实施例2的一种可选的处理爬取网页的装置示意图;图7是根据本专利技术实施例2的一种可选的处理爬取网页的装置示意图;图8是根据本专利技术实施例2的一种可选的处理爬取网页的装置示意图;图9是根据本专利技术实施例2的一种可选的处理爬取网页的装置示意图;图10是根据本专利技术实施例2的一种可选的处理爬取网页的装置示意图;以及图11是根据本专利技术实施例3的处理爬取网页的系统示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种处理爬取网页的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例1的处理爬取网页的方法流程图,如图1所示,该方法包括如下步骤:步骤S102,确定是否存在待验证的网页的标识信息。具体的,在对一个网页进行验证之前,不能确定该网页是否已经被爬取过,也就是存在已经被爬取过和还没有被爬取过两种可能性,需要注意的是,本专利技术所要解决的是现有技术中防止爬虫系统重复爬取网页时,爬取内容校验不通过但网页无法被再次爬取的技术问题,因此本专利技术中的提到的网页都只需被爬取一次,如果网页已经被爬取过,那么就不需要再次爬取,因此在确定要对一个网页进行爬取前,需要首先验证该网页是否被爬取过,只有在没有被爬取过的情况下,才进一步的根据待验证的网页的标识信息进行爬取,因此确定是否存在待验证的网页的标识信息实际上包括两层含义,第一层含义为确定是否存在待验证的网页,第二层含义为在确定存在待验证的网页后,确定是否存在待验证的网页的标识信息。可选的,待验证的网页的标识信息包括但不仅限于待验证的网页的地址信息,其中地址信息包括但不仅限于待验证的网页的URL、域名等。步骤S104,根据待验证的网页的标识信本文档来自技高网
...
处理爬取网页的方法和装置

【技术保护点】
一种处理爬取网页的方法,其特征在于,包括:确定是否存在待验证的网页的标识信息;根据所述待验证的网页的标识信息爬取得到网页页面之后,校验所述爬取得到的网页页面;在所述爬取得到的网页页面校验通过的情况下,确定所述待验证的网页爬取成功;将爬取成功的所述待验证的网页的标识信息保存至过滤器服务。

【技术特征摘要】
1.一种处理爬取网页的方法,其特征在于,包括:确定是否存在待验证的网页的标识信息;根据所述待验证的网页的标识信息爬取得到网页页面之后,校验所述爬取得到的网页页面;在所述爬取得到的网页页面校验通过的情况下,确定所述待验证的网页爬取成功;将爬取成功的所述待验证的网页的标识信息保存至过滤器服务。2.根据权利要求1所述的方法,其特征在于,确定是否存在待验证的网页的标识信息,包括:确定缓存服务中是否存在以所述待验证的网页的标识信息为键值的缓存项。3.根据权利要求2所述的方法,其特征在于,确定缓存服务中是否存在以所述待验证的网页的标识信息为键值的缓存项,包括:当所述缓存服务中不存在以所述待验证的网页的标识信息为键值的缓存项时,确定所述过滤器服务中是否存在所述待验证的网页的标识信息;当所述缓存服务中存在以所述待验证的网页的标识信息为键值的缓存项时,不再对所述待验证的网页的标识信息进行进一步操作。4.根据权利要求3所述的方法,其特征在于,确定所述过滤器服务中是否存在所述待验证的网页的标识信息,包括:当所述过滤器服务中不存在所述待验证的网页的标识信息时,将以所述待验证的网页的标识信息为键值的缓存项保存至所述缓存服务;当所述过滤器服务中存在所述待验证的网页的标识信息时,确定所述待验证的网页已经被爬取过,不再对所述待验证的网页的标识信息进行进一步操作。5.根据权利要求4所述的方法,其特征在于,将爬取成功的所述待验证的网页的标识信息保存至过滤器服务之后,还包括:从所述缓存服务中删除以所述待...

【专利技术属性】
技术研发人员:赵一飞
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1