【技术实现步骤摘要】
201610181698
【技术保护点】
一种基于不同更新策略的分布式网络爬虫抓取方法,其特征在于:包括以下步骤:S1:网页更新策略:(1)通过网页不同属性,进行聚类分析,将相同的属性的网页分为一组;(2)对同一聚类组的网页进行抽样提取,通过历史参考策略确定网页的更新频率;(3)通过得到的网页更新频率,对网页进行定时抓取;S2:分布式集群搭建:采用一致性哈稀分片算法进行redis集群的搭建,将不同的key分布到不同的redis server上。
【技术特征摘要】
1.一种基于不同更新策略的分布式网络爬虫抓取方法,其特征在于:包括以下步骤:S1:网页更新策略:(1)通过网页不同属性,进行聚类分析,将相同的属性的网页分为一组;(2)对同一聚类组的网页进行抽样提取,通过历史参考策略确定网页的更新频率;(3)通过得到的网页更新频率,对网页进行定时抓取;S2:分布式集群搭建:采用一致性哈稀分片算法进行redis集群的搭建,将不同的key分布到不同的...
【专利技术属性】
技术研发人员:封金煜,杨胜华,崔乐乐,
申请(专利权)人:浪潮软件集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。