一种分布式爬虫系统中的URL去重方法技术方案

技术编号：17467496 阅读：175 留言：0更新日期：2018-03-15 05:01

本发明专利技术公开了一种分布式爬虫系统中的URL去重方法，包括将Hash值放入一个2

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式爬虫系统中的URL去重方法
本专利技术涉及网络
，具体为一种分布式爬虫系统中的URL去重方法。
技术介绍
网络爬虫是一种按照一定规则，自动抓取网络内容的程序，已被广泛的应用于互联网领域。爬虫从指定的URL地址开始下载页面内容，提取其中的URL地址，再从这些地址开始继续下载内容。由于新提取到的URL地址可能已经处理过，继续处理会导致重复下载，浪费带宽和计算资源。URL去重技术广泛应用于网络审计系统，搜索引擎系统中。在分布式网络爬虫系统中，需要采用某种策略将URL任务分配到多台服务器并行抓取，划分策略必须高效而且易于实现。在分布式环境下，某个主机提取到的URL地址可能已经被系统其它主机处理过，因此系统需要有一种分布式的URL去重机制。URL去重技术主要考虑两方面的问题：URL存储空间和URL匹配速度。URL的存储空间是指可以处理非重复URL的最大数目和每条URL所占用的内存空间。URL匹配速度是通过判断一条URL记录是否为重复URL所用的时间来衡量的。BloomFilter是处理URL去重的有效工具。BloomFilter算法的去重方案的主要思路大致包...
一种分布式爬虫系统中的URL去重方法

【技术保护点】
一种分布式爬虫系统中的URL去重方法，其特征在于，包括以下步骤：S1、将服务器集群作为统一的资源池，并将Hash值放入一个2

【技术特征摘要】
1.一种分布式爬虫系统中的URL去重方法，其特征在于，包括以下步骤：S1、将服务器集群作为统一的资源池，并将Hash值放入一个2m的Hash环形空间中，每个服务节点也作为对象放入Hash环中，每个服务节点对应一个BloomFilter结构，每个服务节点处理对应范围的请求；S2、每个节点初始化BloomFilter结构，即初始化一个长度为n比特的数组，所有比特位初始值都为0；S3、对新获取到的URL进行Hash计算得到H；S4、根据H落在hash环上的位置获得对应的服务节点k；S5、对应的服务器k对URL用K个Hash函数进行计算，得到K个哈希值H[0],H[1],....,H[k-1]；S6、根据K个Hash值查找BloomFilter中的比特位图，判断对应的比特位是否都为1，若均为1，则认为URL为重复，进入步骤S7，否则进入步骤S8；S7、丢弃重复的URL，进入步骤S3；S8、将该URL放入爬虫的待处理队列中；S9、将该服务器节点k的BloomFilter中对应的H...

【专利技术属性】
技术研发人员：曾映方，
申请(专利权)人：广东思域信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人