一种用于分布式爬虫网址去重的方法技术

技术编号:25223828 阅读:51 留言:0更新日期:2020-08-11 23:13
本发明专利技术公开了一种用于分布式爬虫网址去重的方法,分布式爬虫网址去重的步骤如下:采集URL集合、初次计算、二次计算、判断数据是否存在一、判断数据是否存在二、完成采集。本发明专利技术取得如下技术效果:解决了大规模网页地址去重的瓶颈问题,该方法可以自由拓展分布式内存数据库的数量,满足任何数据规模的去重需求,由于基于内存数据库,所以去重效率非常高,由于是分布式,所有不存在内存溢出或者I/O超载的情况。

【技术实现步骤摘要】
一种用于分布式爬虫网址去重的方法
本专利技术涉及计算机网络
,确切地说是一种用于分布式爬虫网址去重的方法。
技术介绍
随着互联网的迅速发展,互联网舆情监测的越来越宽泛,如何解决每天亿级数据的去重问题成了,数据采集领域一个重要的难题,既要保障去重的准确性又要保证去重的高效率,常规的去重已经无法满足业务需求。基于内存的去重方法需要面对内存溢出的问题,尤其是在面对海量日益增长的网页URL的情况下。目前通用的解决方案是采用BloomFilter,这种方法虽然解决了内存溢出问题,但却牺牲了准确率,随着数据量的增大,碰撞概率也会增大。基于磁盘的去重方法不存在内存溢出问题,这类方法一般采用数据库去重的方式。对于传统关系型数据库,在处理海量URL去重时会面临单点问题以及查询效率随数据量增长而下降问题。
技术实现思路
本专利技术要解决的技术问题是基于磁盘的去重方法不存在内存溢出问题,这类方法一般采用数据库去重的方式。对于传统关系型数据库,在处理海量URL去重时会面临单点问题以及查询效率随数据量增长而下降问题。为解本文档来自技高网...

【技术保护点】
1.一种用于分布式爬虫网址去重的方法,其特征在于所述的分布式爬虫网址去重的步骤如下:/n步骤1:采集URL集合:通过爬虫获取需要采集的URL集合;/n步骤2:初次计算:针对采集的每个URL进行编码计算,针对编码前两位计算所在的内存数据库;/n步骤3:二次计算:将初次计算编码数据发送到所在内存数据库做去重计算;/n步骤4:判断数据是否存在一:判断采集发送的数据是否在内存数据库中,如果内存数据库中有相同匹配数据,返回失败;/n步骤5:判断数据是否存在二:判断采集发送的数据是否在内存数据库中,如果内存数据库中没有相同匹配数据,不存在重复,返回成功;/n步骤6:完成采集:将判断后返回的数据采集成功。/...

【技术特征摘要】
1.一种用于分布式爬虫网址去重的方法,其特征在于所述的分布式爬虫网址去重的步骤如下:
步骤1:采集URL集合:通过爬虫获取需要采集的URL集合;
步骤2:初次计算:针对采集的每个URL进行编码计算,针对编码前两位计算所在的内存数据库;
步骤3:二次计算:将初次计算编码数据发送到所在内存数据库做去重计算;
步骤4:判断数据是否存在一:判断采集发送的数据是否在内存数据库中,如果内存数据库中有相同匹配数据,返回失败;
步...

【专利技术属性】
技术研发人员:徐利东远贵良
申请(专利权)人:山东贝赛信息科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1