温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明公开了一种针对大规模数据采集的三层分布式去重架构和方法,架构包括本地缓存层、分布式缓存层、分布式索引层,本地缓存层用于对采集过的URL和网页内容分别进行MD5值计算,使用Hash表结构保存在本地;进行去重判断时,首先从本地缓存中进行;...该专利属于中国电子科技集团公司第二十八研究所所有,仅供学习研究参考,未经过中国电子科技集团公司第二十八研究所授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明公开了一种针对大规模数据采集的三层分布式去重架构和方法,架构包括本地缓存层、分布式缓存层、分布式索引层,本地缓存层用于对采集过的URL和网页内容分别进行MD5值计算,使用Hash表结构保存在本地;进行去重判断时,首先从本地缓存中进行;...