面向大规模数据采集的三层分布式去重架构和方法技术

技术编号：24498110 阅读：58 留言：0更新日期：2020-06-13 03:52

本发明专利技术公开了一种针对大规模数据采集的三层分布式去重架构和方法，架构包括本地缓存层、分布式缓存层、分布式索引层，本地缓存层用于对采集过的URL和网页内容分别进行MD5值计算，使用Hash表结构保存在本地；进行去重判断时，首先从本地缓存中进行；分布式缓存层使用memcached保存所有爬虫近期爬取的网页信息的MD5值；分布式索引层使用SolrCloud服务器，存储全量的主键MD5值，独立于采集结果实体数据索引，并与之一一对应，确保了采集数据去重的完备性，并分担了实体数据索引的性能压力。本发明专利技术结合本地缓存、分布式缓存及分布式索引来高效地判断重复网页，特别适于网页规模庞大、内容更新频繁需要反复爬取的应用场景。

A three-tier distributed de duplication architecture and method for large-scale data collection

全部详细技术资料下载

【技术实现步骤摘要】
面向大规模数据采集的三层分布式去重架构和方法
本专利技术涉及分布式网络数据处理
，具体涉及一种面向大规模数据采集的三层分布式去重架构和方法。
技术介绍
随着互联网规模的快速增长，互联网数据的价值越来越受到重视。互联网数据具有数据量巨大、更新频率快、价值密度低等特点，需要进行大规模、分布式的数据采集。各个爬虫服务器之间高效的网页去重工作是分布式数据采集的重点和难点。目前已有的网页去重方法主要分为两类，研究最多的一类是对相似网页去重的研究，这种方法的一个主要功能是可以发现网页的镜像；另外一类认为URL完全相同的网页称为重复网页。针对相似网页去重方法中，比较典型的是基于聚类和特征码的方法。基于聚类的方法时间复杂度过高，不适合大规模数据采集；基于特征码的精确匹配不能抵抗网页转载时产生的噪音。排除相同URL方法易于实现，但未利用网页文本内容结构信息，不能对转载造成的重复网页去重。
技术实现思路
本专利技术的目的在于提供一种面向大规模数据采集的三层分布式去重架构和方法。实现本专利技术目的...

【技术保护点】
1.一种面向大规模数据采集的分布式去重架构，其特征在于，包括：/n本地缓存层，用于对网页URL和网页内容进行MD5值计算，采用Hash表结构保存在本地，供本地爬虫程序进行去重；/n分布式缓存层，使用memcached服务器，存储所有爬虫程序在近期采集的网页内容的MD5值，为分布式爬虫提供高速主键缓存与读取查重能力；/n分布式索引层，使用SolrCloud服务器，存储全量的主键MD5值，独立于采集结果实体数据索引，并与之一一对应。/n

【技术特征摘要】
1.一种面向大规模数据采集的分布式去重架构，其特征在于，包括：
本地缓存层，用于对网页URL和网页内容进行MD5值计算，采用Hash表结构保存在本地，供本地爬虫程序进行去重；
分布式缓存层，使用memcached服务器，存储所有爬虫程序在近期采集的网页内容的MD5值，为分布式爬虫提供高速主键缓存与读取查重能力；
分布式索引层，使用SolrCloud服务器，存储全量的主键MD5值，独立于采集结果实体数据索引，并与之一一对应。

2.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于新闻类网站数据采集去重时，保存对新闻正文MD5值的同时，对新闻内容的标题、发布时间、URL进行MD5值计算和存储。

3.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于网站评论类数据采集去重时，对评论所在页面URL、评论编号、日期、内容进行MD5值计算和存储。

4.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于社交网站数据采集去重时，对目标社交媒体用户ID、内容、发布日期、内容编号进行MD5值计算和存储。

5.根据权利要求1所述的面向大规模数据采集的分布式去重架构，其特征在于，所述架构用于智库类网站数据采集去重时，对目标智库网站发布的页面URL、文档URL、页面内容、文档内容进行MD5值计算和存储。

6.一种面向大规模数据采集的三层分布式去重方法，其特征在于，该方法包括：
本地缓存层去重，对网页URL和网页内容进行MD5值计算和本地缓存对比去重；
分布式缓存去重，...

【专利技术属性】
技术研发人员：杨文超，苏雪阳，
申请(专利权)人：中国电子科技集团公司第二十八研究所，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人