一种基于不同更新策略的分布式网络爬虫抓取方法技术

技术编号:13545103 阅读:104 留言:0更新日期:2016-08-18 10:13
本发明专利技术公开了一种基于不同更新策略的分布式网络爬虫抓取方法,属于获取计算机网页更新信息技术领域。所述基于不同更新策略的分布式网络爬虫抓取方法包括以下步骤:S1:网页更新策略:(1)通过网页不同属性,进行聚类分析,将相同的属性的网页分为一组;(2)对同一聚类组的网页进行抽样提取,通过历史参考策略确定网页的更新频率;(3)通过得到的网页更新频率,对网页进行定时抓取;S2:分布式集群搭建。本发明专利技术所述基于不同更新策略的分布式网络爬虫抓取方法,避免了实时监测网页是否更新,可以通过得到的网页更新频率来定时的进行网页更新,减低了系统存储的负担,具有很好的推广应用价值。

【技术实现步骤摘要】
201610181698

【技术保护点】
一种基于不同更新策略的分布式网络爬虫抓取方法,其特征在于:包括以下步骤:S1:网页更新策略:(1)通过网页不同属性,进行聚类分析,将相同的属性的网页分为一组;(2)对同一聚类组的网页进行抽样提取,通过历史参考策略确定网页的更新频率;(3)通过得到的网页更新频率,对网页进行定时抓取;S2:分布式集群搭建:采用一致性哈稀分片算法进行redis集群的搭建,将不同的key分布到不同的redis server上。

【技术特征摘要】
1.一种基于不同更新策略的分布式网络爬虫抓取方法,其特征在于:包括以下步骤:S1:网页更新策略:(1)通过网页不同属性,进行聚类分析,将相同的属性的网页分为一组;(2)对同一聚类组的网页进行抽样提取,通过历史参考策略确定网页的更新频率;(3)通过得到的网页更新频率,对网页进行定时抓取;S2:分布式集群搭建:采用一致性哈稀分片算法进行redis集群的搭建,将不同的key分布到不同的...

【专利技术属性】
技术研发人员:封金煜杨胜华崔乐乐
申请(专利权)人:浪潮软件集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1