【技术实现步骤摘要】
一种分布式爬虫系统中的URL去重方法
本专利技术涉及网络
,具体为一种分布式爬虫系统中的URL去重方法。
技术介绍
网络爬虫是一种按照一定规则,自动抓取网络内容的程序,已被广泛的应用于互联网领域。爬虫从指定的URL地址开始下载页面内容,提取其中的URL地址,再从这些地址开始继续下载内容。由于新提取到的URL地址可能已经处理过,继续处理会导致重复下载,浪费带宽和计算资源。URL去重技术广泛应用于网络审计系统,搜索引擎系统中。在分布式网络爬虫系统中,需要采用某种策略将URL任务分配到多台服务器并行抓取,划分策略必须高效而且易于实现。在分布式环境下,某个主机提取到的URL地址可能已经被系统其它主机处理过,因此系统需要有一种分布式的URL去重机制。URL去重技术主要考虑两方面的问题:URL存储空间和URL匹配速度。URL的存储空间是指可以处理非重复URL的最大数目和每条URL所占用的内存空间。URL匹配速度是通过判断一条URL记录是否为重复URL所用的时间来衡量的。BloomFilter是处理URL去重的有效工具。BloomFilter算法的去重方案的主要思路大致包 ...
【技术保护点】
一种分布式爬虫系统中的URL去重方法,其特征在于,包括以下步骤:S1、将服务器集群作为统一的资源池,并将Hash值放入一个2
【技术特征摘要】
1.一种分布式爬虫系统中的URL去重方法,其特征在于,包括以下步骤:S1、将服务器集群作为统一的资源池,并将Hash值放入一个2m的Hash环形空间中,每个服务节点也作为对象放入Hash环中,每个服务节点对应一个BloomFilter结构,每个服务节点处理对应范围的请求;S2、每个节点初始化BloomFilter结构,即初始化一个长度为n比特的数组,所有比特位初始值都为0;S3、对新获取到的URL进行Hash计算得到H;S4、根据H落在hash环上的位置获得对应的服务节点k;S5、对应的服务器k对URL用K个Hash函数进行计算,得到K个哈希值H[0],H[1],....,H[k-1];S6、根据K个Hash值查找BloomFilter中的比特位图,判断对应的比特位是否都为1,若均为1,则认为URL为重复,进入步骤S7,否则进入步骤S8;S7、丢弃重复的URL,进入步骤S3;S8、将该URL放入爬虫的待处理队列中;S9、将该服务器节点k的BloomFilter中对应的H...
【专利技术属性】
技术研发人员:曾映方,
申请(专利权)人:广东思域信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。