一种网络爬虫的数据处理系统及方法技术方案

技术编号:24331353 阅读:26 留言:0更新日期:2020-05-29 19:43
本发明专利技术涉及一种网络爬虫的数据处理系统及方法,通过接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的特征信息集;将所述待爬取网页URL的每个特征信息输入至校验布隆过滤器,通过所有特征信息同时判断URL的重复性,由于每个特征信息均配置有一组或多组哈希函数组,即使某个特征信息在校验时,其中一哈希函数组中出现了误判,由于一个特征信息需要同时经一组或多组哈希函数组验证,因此除非每组哈希函数组都产生了误判,否则对最终的判断不影响,且由于所述待爬取网页URL的所有特征信息同时用来判断URL的重复性,即使某个特征信息在校验时有误判,对最终的判断不影响,因此保证了校验的准确性。

A data processing system and method of web crawler

【技术实现步骤摘要】
一种网络爬虫的数据处理系统及方法
本专利技术涉及PC互联网/移动互联网,尤其涉及一种网络爬虫的数据处理系统及方法。
技术介绍
随着PC互联网/移动互联网的飞速发展,网络爬虫技术越来越受到重视。网络爬虫通过下载指定网页中的所有网址链接来获取信息。但是,在面对海量的网页信息时,为了尽可能多的爬取目标网页,往往是采用网络爬虫分布到多个机器集群上采用分布式网络爬虫进行爬取,且对已经爬取过的网页不再爬取。为了防止重复爬取,目前常用的方式是将爬取过的URL保存在布隆过滤器中,通过布隆过滤器进行URL的重复性校验,布隆过滤器作为一种多哈希函数映射的快速查找算法,查询时间快,空间消耗小。它可以判断出某个元素URL肯定不在已经爬取过的URL集合里或者可能在集合里,即布隆过滤器不会漏报,但可能会出现在其他元素插入过程中出现占位,被偶然置为1,导致误报。因此,采用该种方法进行URL的重复性校验时,准确性有限,尤其是当URL数目过于巨大时,其准确性更是有待考证。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提供一种网络爬虫的数据处理系统及方法。根据本专利技术的一个方面,提供了一种网络爬虫的数据处理系统,包括:URL特征信息获取单元,配置用于接收针对待爬取网页URL的重复性校验请求,以及所述待爬取网页URL多个特征信息集合成的所述待爬取网页URL的特征信息集;URL重复性校验单元,配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。其中,多组哈希函数组,即哈希函数组的数量为2组及以上。每组哈希函数组包括一个或多个哈希函数,每组哈希函数组中包括多个哈希函数时要求每组哈希函数组中哈希函数的数量为2个及以上。进一步的,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。即所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的2个及以上,如包括所述待爬取网页URL的内容、类型,或所述待爬取网页URL的内容、类型、字段长度,或所述待爬取网页URL的内容、类型、字段长度、字符个数等。进一步的,URL特征信息获取单元接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。预设网页链接深度包括外部链接深度、内部链接深度。其中,外部链接深度是指在建设网站外链接的时候,所进行的一系列的网站内部页面与对方网站内部页面间的所有链接;内部链接深度就是本网站内部页面之间的深度链接。进一步的,URL重复性校验单元配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。根据本专利技术的另一个方面,提供了一种网络爬虫的数据处理方法,包括以下步骤:S1、接收针对待爬取网页URL的重复性校验请求,以及所述待爬取网页URL多个特征信息集合成的所述待爬取网页URL的特征信息集;S2、将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。进一步的,所述的网络爬虫的数据处理方法,还包括:若所述待爬取网页URL属于所述已爬取URL集合,则所述待爬取网页URL已爬取过,接收针对下一待爬取网页URL的重复性校验请求,以及所述下一待爬取网页URL的特征信息集,执行步骤S1-S2,否则则驱动所述待爬取网页URL对应的网络爬虫系统,执行对所述待爬取网页URL的爬取操作。进一步的,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。进一步的,S1接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。进一步的,S3包括:将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。根据本专利技术的另一个方面,提供了一种设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。根据本专利技术的另一个方面,提供了一种存储有计算机程序的计算机可读存介质,该程序被处理器执行时实现如上任一项所述的方法。与现有技术相比,本专利技术具有以下有益效果:1、本专利技术示例的网络爬虫的数据处理系统,URL特征信息获取单元配置用于接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;URL重复性校验单元将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,通过所述待爬取网页URL的所有特征信息同时判断所述待爬取网页URL的重复性,对所述待爬取网页URL进行重复性校验,由于所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,而每组哈希函数组包括一个或多个哈希函数,即使在校验时,某个特征信息输入的一组哈希函数组中出现了占位情况,也对最终的判断不影响,除非每组哈希函数组都产生了误判,即使所述待爬取网页URL的某个特征信息在校验时可能有误判,但是同时用来判断所述待爬取网页URL重复性的所有特征信息同时出现误判的几率极低,即除非所述待爬取网页URL的所有特征信息对应的所有哈希函数组都有误判,否则则对最终的判断不影响,因此保证了所述待爬取网页URL重复性校验的准确性。2、本专利技术示例的网络爬虫的数据处理方法,通过接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,通过所述待爬取网页URL的所有特征信息同时判断所述待爬取网页URL的重复性,对所述待爬取网页URL进行重复性校验,且由于所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,即使某个特征信息在校验时,其中一哈希函数组中出现了误判,由于一个特征信息需要同时经一组或多组哈希函数组验证,因此除非每组哈希函数组都产生了误判,否则对最终的判断不影响,且由于所述待爬取网页URL的所有特征信息同时用来判断所述待爬取网页URL的重复性,即使所述待爬取网页URL的某个特征信息在校验时有误判,对最终的判断不影响,因此保证了所述待爬取本文档来自技高网...

【技术保护点】
1.一种网络爬虫的数据处理系统,其特征是,包括:/nURL特征信息获取单元,配置用于接收针对待爬取网页URL的重复性校验请求,以及用于接收待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;/nURL重复性校验单元,配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。/n

【技术特征摘要】
1.一种网络爬虫的数据处理系统,其特征是,包括:
URL特征信息获取单元,配置用于接收针对待爬取网页URL的重复性校验请求,以及用于接收待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;
URL重复性校验单元,配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。


2.根据权利要求1所述的网络爬虫的数据处理系统,其特征是,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。


3.根据权利要求1所述的网络爬虫的数据处理系统,其特征是,URL特征信息获取单元接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。


4.根据权利要求3所述的网络爬虫的数据处理系统,其特征是,预设网页链接深度包括外部链接深度、内部链接深度。


5.根据权利要求1-4任一所述的网络爬虫的数据处理系统,其特征是,
URL重复性校验单元配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。


6.一种网络爬虫的数据处理方法,其特征是,包括以下步骤:
S1...

【专利技术属性】
技术研发人员:曾庆维
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1