时效性种子页的抓取方法及装置制造方法及图纸

技术编号:9765930 阅读:195 留言:0更新日期:2014-03-15 11:47
本发明专利技术公开了一种时效性种子页的抓取方法及装置,其中方法包括:对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;基于所述频率调整因子计算频率调整系数;根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率。根据本发明专利技术可以动态调整抓取频率,降低对种子页不必要的抓取,也能保证新链接被及时发现而不丢失。

【技术实现步骤摘要】
时效性种子页的抓取方法及装置
本专利技术涉及互联网
,具体涉及一种时效性种子页的抓取方法及装置。
技术介绍
互联网总是在不断产生新的内容,比如新闻、各种热门的讨论等等。这些新内容分散在互联网不同的角落,搜索引擎为了能及时对它们提供检索,需要从浩如烟海的互联网上及时把它们找到并抓取回来。幸运的是,指向时效性内容的链接几乎总是在一类特定的页面上出现,这类页面叫做时效性种子页(简称hub页),比如http://news.sina.com.cn/。所以理论上只需要找到这些hub页,然后及时检查它们的变化,便能把时效性链接全部找到。hub页面的内容是在不断变化的,新链接出现一段时间后就很可能会消失。像论坛的版面,滚动非常快,新帖子要不了多久就沉下去了。如果不能及时发现它们的变化,就会导致新链接丢失。但是每检查一次页面,就需要发起一次抓取,假如搜索引擎不停地检查这类页面,则会对所属网站产生大量抓取。这种大量的抓取在很多情况下未必能发现新链接,造成大量无意义抓取,而且也是一种很不礼貌的行为,甚至会触发网站对搜索引擎爬虫的封禁,导致一段时间内爬虫无法访问网站。因此,既保证时效性新链本文档来自技高网...

【技术保护点】
一种时效性种子页的抓取方法,包括:对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子;确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率;基于所述频率调整因子计算频率调整系数;根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率。

【技术特征摘要】
1.一种时效性种子页的抓取方法,包括: 对于一时效性种子页,获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子; 确定与所述当前预设时间段存在对应关系的历史预设时间段的抓取频率; 基于所述频率调整因子计算频率调整系数; 根据所述抓取频率以及所述频率调整系数,动态调整所述当前预设时间段的抓取频率。2.根据权利要求1所述的方法,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子。3.根据权利要求2所述的方法,所述对于发起的一次抓取,根据该次抓取是否发现新链接的结果确定该次抓取对应的频率调整因子具体包括: 如果该次抓取发现新链接,则确定该次抓取对应的频率调整因子为大于I的第一预定值; 如果该次抓取没有发现新链接,则确定该次抓取对应的频率调整因子为小于I的第二预定值。`4.根据权利要求1所述的方法,所述获取当前预设时间段内对所述种子页发起的每次抓取对应的频率调整因子具体为:对于发起的一次抓取,根据该次抓取之前一段预设时间内发现新链接的次数与发起抓取的次数的比率确定该次抓取对应的频率调整因子。5.根据权利要求1-4任一项所述的方法,所述当前预设时间段内对所述种子页已经发起的抓取次数为η ; 所述基于所述频率...

【专利技术属性】
技术研发人员:魏少俊
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1