一种分布式网络爬虫的URL去重方法及其系统技术方案

技术编号：20916697 阅读：32 留言：0更新日期：2019-04-20 09:43

本发明专利技术公开了一种分布式网络爬虫的URL去重方法及其系统，涉及数据传输领域。本发明专利技术包括如下步骤：步骤S01：获取待抓取网页的URL；步骤S02：URL进行MD5压缩处理；步骤S03：将生成的密文切割成16位数组；步骤S04：根据磁盘符号查找方式将密文生成数组的转换为相应路径；步骤S05：判断linkurl中是否存在相应的URL；步骤S06：对资源库中的URL进行解密并动态插入改进广义表；步骤S07：遍历待去重的URL每个字母；步骤S08：依次判断每个字母对应的节点是否存在。本发明专利技术通过MD5加密算法与树相结合的方式对URL初步去重，再通过将初步去重的URL依次遍历每个字母，根据字母对应的节点进行二次去重，提升了网络爬虫抓取数据精确性和效率，降低了资源空间占有率。

A URL Reduplication Method and System for Distributed Network Crawler

The invention discloses a method and system for removing duplicate URLs of distributed network crawlers, which relates to the field of data transmission. The invention comprises the following steps: 1) obtaining the URL of the web page to be crawled; 02: URL for MD5 compression processing; 03: cutting the generated ciphertext into 16-digit groups; 2) converting the ciphertext generated array into corresponding paths according to the disk symbol lookup mode; 2) determining whether the corresponding URL exists in linkurl; 6: performing the URL in the resource library. Decrypt and insert the improved generalized table dynamically; (07) traverse each letter of the URL to be duplicated; (08) judge the existence of nodes corresponding to each letter in turn. The method of combining MD5 encryption algorithm with tree preliminarily removes the duplication of the URL, then traverses each letter in turn by the preliminary duplication of the URL, and removes the duplication twice according to the corresponding nodes of the letters, thus improving the accuracy and efficiency of crawler's data capture and reducing the occupancy rate of resource space.

全部详细技术资料下载

【技术实现步骤摘要】
一种分布式网络爬虫的URL去重方法及其系统
本专利技术属于数据传输领域，特别是涉及一种分布式网络爬虫的URL去重方法及其系统。
技术介绍
目前，网络爬虫常用的URL去重方案有基于数据库的去重方案和基于内存链表的去重方案，这些方案在URL库容量不大的情况下有不错的效果。但是，现有的分布式爬虫面向的URL库容量通常非常大，需要URL去重能够持久保持高效运作，而上述常用的URL去重方案在爬虫程序运行较长时间后会有效率剧降或任务瘫痪的风险。现有技术中的URL去重方法设计不够合理，亟需改进。
技术实现思路
本专利技术的目的在于提供一种分布式网络爬虫的URL去重方法及其系统，通过MD5加密算法与树相结合的方式对URL初步去重，再通过将初步去重的URL依次遍历每个字母，根据字母对应的节点进行二次去重，解决了现有的网络爬虫抓取数据精确性和效率不足以及占用资源多的问题。为解决上述技术问题，本专利技术是通过以下技术方案实现的：本专利技术为一种分布式网络爬虫的URL去重方法，包括如下步骤：步骤S01：获取待抓取网页的URL；步骤S02：将获取的URL进行16位MD5压缩处理；步骤S03：将生成的密文切割成16位数组；步骤S04：根据磁盘符号查找方式将密文生成数组的转换为相应路径；步骤S05：判断linkurl中是否存在相应的URL；若不存在，则URL存储至资源库；若存在，则删除该URL；步骤S06：对资源库中的URL进行解密并动态插入改进广义表；步骤S07：从动态广义表根节点出发，遍历待去重的URL每个字母；步骤S08：依次判断每个字母对应的节点是否存在；若存在，则将该条URL去重...

【技术保护点】
1.一种分布式网络爬虫的URL去重方法，其特征在于，包括如下步骤：步骤S01：获取待抓取网页的URL；步骤S02：将获取的URL进行16位MD5压缩处理；步骤S03：将生成的密文切割成16位数组；步骤S04：根据磁盘符号查找方式将密文生成数组的转换为相应路径；步骤S05：判断linkurl中是否存在相应的URL；若不存在，则URL存储至资源库；若存在，则删除该URL；步骤S06：对资源库中的URL进行解密并动态插入改进广义表；步骤S07：从动态广义表根节点出发，遍历待去重的URL每个字母；步骤S08：依次判断每个字母对应的节点是否存在；若存在，则将该条URL去重；若不存在，则将该条URL存储至待抓取队列。

【技术特征摘要】
1.一种分布式网络爬虫的URL去重方法，其特征在于，包括如下步骤：步骤S01：获取待抓取网页的URL；步骤S02：将获取的URL进行16位MD5压缩处理；步骤S03：将生成的密文切割成16位数组；步骤S04：根据磁盘符号查找方式将密文生成数组的转换为相应路径；步骤S05：判断linkurl中是否存在相应的URL；若不存在，则URL存储至资源库；若存在，则删除该URL；步骤S06：对资源库中的URL进行解密并动态插入改进广义表；步骤S07：从动态广义表根节点出发，遍历待去重的URL每个字母；步骤S08：依次判断每个字母对应的节点是否存在；若存在，则将该条URL去重；若不存在，则将该条URL存储至待抓取队列。2.根据权利要求1所述的一种分布式网络爬虫的URL去重方法，其特征在于，所述步骤S02中，对URL加密完成后以树的形式进行存储。3.根据权利要求1所述的一种分布式网络爬虫的URL去重方法，其特征在于，所述步骤S03中，密文切割成16位的数组a后，将数据a[0]的值与根节点下指向的节点值进行比较...

【专利技术属性】
技术研发人员：胡翔，
申请(专利权)人：安徽云融信息技术有限公司，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人