一种网络爬虫的数据处理系统及方法技术方案

技术编号:24331353 阅读:30 留言:0更新日期:2020-05-29 19:43
本发明专利技术涉及一种网络爬虫的数据处理系统及方法,通过接收针对待爬取网页URL的重复性校验请求,以及待爬取网页URL多个特征信息集合成的特征信息集;将所述待爬取网页URL的每个特征信息输入至校验布隆过滤器,通过所有特征信息同时判断URL的重复性,由于每个特征信息均配置有一组或多组哈希函数组,即使某个特征信息在校验时,其中一哈希函数组中出现了误判,由于一个特征信息需要同时经一组或多组哈希函数组验证,因此除非每组哈希函数组都产生了误判,否则对最终的判断不影响,且由于所述待爬取网页URL的所有特征信息同时用来判断URL的重复性,即使某个特征信息在校验时有误判,对最终的判断不影响,因此保证了校验的准确性。

A data processing system and method of web crawler

【技术实现步骤摘要】
一种网络爬虫的数据处理系统及方法
本专利技术涉及PC互联网/移动互联网,尤其涉及一种网络爬虫的数据处理系统及方法。
技术介绍
随着PC互联网/移动互联网的飞速发展,网络爬虫技术越来越受到重视。网络爬虫通过下载指定网页中的所有网址链接来获取信息。但是,在面对海量的网页信息时,为了尽可能多的爬取目标网页,往往是采用网络爬虫分布到多个机器集群上采用分布式网络爬虫进行爬取,且对已经爬取过的网页不再爬取。为了防止重复爬取,目前常用的方式是将爬取过的URL保存在布隆过滤器中,通过布隆过滤器进行URL的重复性校验,布隆过滤器作为一种多哈希函数映射的快速查找算法,查询时间快,空间消耗小。它可以判断出某个元素URL肯定不在已经爬取过的URL集合里或者可能在集合里,即布隆过滤器不会漏报,但可能会出现在其他元素插入过程中出现占位,被偶然置为1,导致误报。因此,采用该种方法进行URL的重复性校验时,准确性有限,尤其是当URL数目过于巨大时,其准确性更是有待考证。
技术实现思路
为了解决上述技术问题,本专利技术的目的在于提供一种网络爬虫的数据本文档来自技高网...

【技术保护点】
1.一种网络爬虫的数据处理系统,其特征是,包括:/nURL特征信息获取单元,配置用于接收针对待爬取网页URL的重复性校验请求,以及用于接收待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;/nURL重复性校验单元,配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。/n

【技术特征摘要】
1.一种网络爬虫的数据处理系统,其特征是,包括:
URL特征信息获取单元,配置用于接收针对待爬取网页URL的重复性校验请求,以及用于接收待爬取网页URL多个特征信息集合成的待爬取网页URL的特征信息集;
URL重复性校验单元,配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器,对所述待爬取网页URL进行重复性校验,其中,所述校验布隆过滤器针对所述待爬取网页URL的每个特征信息均配置有一组或多组哈希函数组,且每组哈希函数组包括一个或多个哈希函数。


2.根据权利要求1所述的网络爬虫的数据处理系统,其特征是,所述待爬取网页URL的多个特征信息,包括所述待爬取网页URL的内容、类型、字段长度、字符个数中的多个。


3.根据权利要求1所述的网络爬虫的数据处理系统,其特征是,URL特征信息获取单元接收的重复性校验请求所针对的所述待爬取网页URL是根据预设网页链接深度所得。


4.根据权利要求3所述的网络爬虫的数据处理系统,其特征是,预设网页链接深度包括外部链接深度、内部链接深度。


5.根据权利要求1-4任一所述的网络爬虫的数据处理系统,其特征是,
URL重复性校验单元配置用于将所述待爬取网页URL的特征信息集输入至校验布隆过滤器配置的一组或多组哈希函数组中,得到相应的一组或多组数组位置,若每组数组位置在输入相应特征信息时被置为1的数量均超过预设阈值,则确认所述待爬取网页URL已被爬取。


6.一种网络爬虫的数据处理方法,其特征是,包括以下步骤:
S1...

【专利技术属性】
技术研发人员:曾庆维
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1