基于分布式数据库的网页URL去重方法技术

技术编号：13743234 阅读：141 留言：0更新日期：2016-09-23 04:27

本发明专利技术涉及分布式数据库技术领域，特别是一种基于分布式数据库的网页URL去重方法，包括以下步骤，步骤S101：获取待爬取URL，由分布式爬虫获取网页待爬取的网页URL；步骤S102：计算URL的hash值；步骤S103：查询数据库，分布式爬虫将各自采集库中的URL压缩后统一发送到分布式数据库做去重处理；步骤S104：反馈结果，将数据查询结果状态返回；步骤S105：数据采集，爬虫节点根据返回结果状态确定该网页是否可以爬取。采用上述方法后，本发明专利技术的基于分布式数据库的网页URL去重方法，很好地解决了海量URL去重过程中的内存问题、单点问题，同时保证了高查询效率与低碰撞率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及分布式数据库
，特别是一种基于分布式数据库的网页URL去重方法。
技术介绍
网页URL去重对爬虫有着重要意义。目前的去重策略主要分为两类：基于内存的去重方法、基于磁盘的去重方法。基于内存的去重方法需要面对内存溢出的问题，尤其是在面对海量日益增长的网页URL的情况下。目前通用的解决方案是采用Bloom Filter，这种方法虽然解决了内存溢出问题，但却牺牲了准确率，随着数据量的增大，碰撞概率也会增大。基于磁盘的去重方法不存在内存溢出问题，这类方法一般采用数据库去重的方式。对于传统关系型数据库，在处理海量URL去重时会面临单点问题以及查询效率随数据量增长而下降问题。中国专利技术专利CN 104809182 A公开了一种基于动态可分裂Bloom Filter的网络爬虫URL去重方法，该方法的基础是一个动态可分裂Bloom Filter(简记DSBF)，它与Interner Archive爬虫和Apoide爬虫中均匀负担URL存取任务的固定结构Bloom Filter不同，而是具有可按需灵活分裂成多层的动态可扩展结构。虽然采用Bloom Filter可以达到节省内存的目的，但这种空间高效是以牺牲准确率为前提的。
技术实现思路
本专利技术需要解决的技术问题提供一种基于去中心化的分布式数据库的去重方法。为解决上述的技术问题，本专利技术的基于分布式数据库的网页URL去重方法，包括以下步骤，包括以下步骤，步骤S101：获取待爬取URL，由分布式爬虫获取网页待爬取的网页URL；步骤S102：计算URL的hash值；步骤S103：查询数据库，分布式爬虫将各自...

【技术保护点】
一种基于分布式数据库的网页URL去重方法，其特征在于，包括以下步骤，步骤S101：获取待爬取URL，由分布式爬虫获取网页待爬取的网页URL；步骤S102：计算URL的hash值；步骤S103：查询数据库，分布式爬虫将各自采集库中的URL压缩后统一发送到分布式数据库做去重处理；步骤S104：反馈结果，将数据查询结果状态返回；步骤S105：数据采集，爬虫节点根据返回结果状态确定该网页是否可以爬取。

【技术特征摘要】
1.一种基于分布式数据库的网页URL去重方法，其特征在于，包括以下步骤，步骤S101：获取待爬取URL，由分布式爬虫获取网页待爬取的网页URL；步骤S102：计算URL的hash值；步骤S103：查询数据库，分布式爬虫将各自采集库中的URL压缩后统一发送到分布式数据库做去重处理；步骤S104：反馈结果，将数据查询结果状态返回；步骤S105：数据采集，爬虫节点根据返回结果状态确定该网页是否可以爬取。2.按照权利要求1所述的基于分布式数据库的网页URL去重方法，其特征在于，所述步骤S104具体包括如下步骤，步骤S1041：判断数据库中数据是否存在；如果不存在，则进入步骤S1042；如果存在，则进入步骤S1043；步骤S1042：直接写入该数据，然后返回成功，进入步骤S1044；步...

【专利技术属性】
技术研发人员：陈丹，黄三伟，
申请(专利权)人：湖南蚁坊软件有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人