The invention discloses a method and device for processing web crawling. The method includes: determining whether there is the identification information of the web page to be verified; after climbing to the page page according to the identification information of the web page to be verifying, the page page is checked by the crawling page. The identifier information of the page to be verified is saved to the filter service. The invention solves the technical problem that when the crawler system is repeatedly crawled, the checkout of the crawling system is not passed but the web page cannot be crawled again.
【技术实现步骤摘要】
处理爬取网页的方法和装置
本专利技术涉及信息
,具体而言,涉及一种处理爬取网页的方法和装置。
技术介绍
在互联网领域,网络爬虫通过分析爬取的网页内容,获取指向其他网页的标识信息,例如网页的URL,从而发现并爬取其他网页,其中,一个网页的URL通常被许多不同的网页引用,为了避免爬虫不断的访问相同的网页,爬虫系统要对待爬取的网页URL做去重工作。特别是针对内容不会变化的网页,比如记录新闻内容的网页,爬虫系统只需爬取一次,之后永远不再爬取。为了避免重复爬取网页,爬虫系统中经常会使用过滤器,例如布隆过滤器,布隆过滤器具有极高空间效率和时间效率,可以用于检索一个元素是否在一个集合中,但是却无法删除一个集合中的特定值。现有的分布式爬虫系统就是通过使用布隆过滤器服务判断一个网页URL是否已经被爬取过。在爬虫准备爬取一个只需爬取一次的网页前,首先检测该网页URL是否已经包含在布隆过滤器所记录的网址集合中,若存在,则认为该网页已经被爬取过了,不再进行爬取;否则将该网页的URL记录到布隆过滤器集合中,防止任意爬虫再次爬取该网页,然后再由该爬虫尝试爬取该网页。但是上述现有技术的防止重复爬取机制存在以下弊端:由于设备、网络、待爬取网站等都有可能出现故障,可能会出现爬虫不能正常的获取到一个网页或者获取到的网页内容有误的情况,而这时该网页的URL已经记录在了布隆过滤器服务中,以后对该网页的爬取都将无法通过布隆过滤器服务的检查,事实上造成了网页的漏爬。通过下面的例子可以更为清楚的说明上述现有技术的不足:假设分布式爬虫系统准备首次爬取一个网页,并且该网页的内容不会更新,只需爬取一次 ...
【技术保护点】
一种处理爬取网页的方法,其特征在于,包括:确定是否存在待验证的网页的标识信息;根据所述待验证的网页的标识信息爬取得到网页页面之后,校验所述爬取得到的网页页面;在所述爬取得到的网页页面校验通过的情况下,确定所述待验证的网页爬取成功;将爬取成功的所述待验证的网页的标识信息保存至过滤器服务。
【技术特征摘要】
1.一种处理爬取网页的方法,其特征在于,包括:确定是否存在待验证的网页的标识信息;根据所述待验证的网页的标识信息爬取得到网页页面之后,校验所述爬取得到的网页页面;在所述爬取得到的网页页面校验通过的情况下,确定所述待验证的网页爬取成功;将爬取成功的所述待验证的网页的标识信息保存至过滤器服务。2.根据权利要求1所述的方法,其特征在于,确定是否存在待验证的网页的标识信息,包括:确定缓存服务中是否存在以所述待验证的网页的标识信息为键值的缓存项。3.根据权利要求2所述的方法,其特征在于,确定缓存服务中是否存在以所述待验证的网页的标识信息为键值的缓存项,包括:当所述缓存服务中不存在以所述待验证的网页的标识信息为键值的缓存项时,确定所述过滤器服务中是否存在所述待验证的网页的标识信息;当所述缓存服务中存在以所述待验证的网页的标识信息为键值的缓存项时,不再对所述待验证的网页的标识信息进行进一步操作。4.根据权利要求3所述的方法,其特征在于,确定所述过滤器服务中是否存在所述待验证的网页的标识信息,包括:当所述过滤器服务中不存在所述待验证的网页的标识信息时,将以所述待验证的网页的标识信息为键值的缓存项保存至所述缓存服务;当所述过滤器服务中存在所述待验证的网页的标识信息时,确定所述待验证的网页已经被爬取过,不再对所述待验证的网页的标识信息进行进一步操作。5.根据权利要求4所述的方法,其特征在于,将爬取成功的所述待验证的网页的标识信息保存至过滤器服务之后,还包括:从所述缓存服务中删除以所述待...
【专利技术属性】
技术研发人员:赵一飞,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。