一种网页抓取周期调整方法和装置制造方法及图纸

技术编号:8682879 阅读:166 留言:0更新日期:2013-05-09 02:48
本申请提供了一种网页抓取周期调整方法和装置,该方法获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页;确定该链接集合中属于所述目标网页中新产生的链接,并将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对目标网页的抓取周期。该方法可以提高确定出的网页抓取周期的精度,减少资源浪费。

【技术实现步骤摘要】

本申请涉及网络信息处理
,特别涉及一种网页抓取周期调整方法和装置
技术介绍
网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。通过网络爬虫对网页的网页信息进行抓取,并对抓取的网页信息进行分析,判断该网页中是否产生新的链接以确定该网页中是否产生新的内容页(即链接所指向的实际页面内容),从而可以监测到网页的变化。一般情况下,网络爬虫是按照目标网页的抓取周期,以固定的时间间隔来抓取该目标网页的网页信息,但是如果网络爬虫对该目标网页的抓取频率过低,则很可能会错过该目标网页中新产生的内容页,无法获取到相应的有用信息;如果抓取频率过高,则可能会导致资源的浪费。因此,需要根据网页的更新频率来调整网络爬虫对该网页的抓取周期,以减少错过有用信息,并避免资源浪费。在调整某网页的抓取周期时,一般是根据指定时间内该网络爬虫连续若干次抓取到的网页信息,确定在该指定时间内该网页中新增的链接数量或比例等,进而根据新增的链接数量或比例来调整抓取该目标网页的周期。然而对于某一个目标网页而言,某些情况下虽然该目标网页中产生了新的链接,但如果该新的链接所指向的内容页是与该目标网页没有任何关联关系的页面本文档来自技高网...

【技术保护点】
一种网页抓取周期调整方法,其特征在于,包括:获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;确定所述链接集合中属于所述目标网页中新产生的链接;判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。

【技术特征摘要】
1.一种网页抓取周期调整方法,其特征在于,包括: 获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页; 确定所述链接集合中属于所述目标网页中新产生的链接; 判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同; 将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接; 依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。2.根据权利要求1所述的方法,其特征在于,所述目标网页为Hub网页。3.根据权利要求1所述的方法,其特征在于,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同之前,还包括: 依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接; 从所述新产生的链接中提取出不属于广告链接的链接组成第一子链接集合; 所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同,包括: 判断是否所述第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同; 所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括: 将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。4.根据权利要求1所述的方法,其特征在于,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,包括: 判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。5.根据权利要求1或4所述的方法,其特征在于,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的...

【专利技术属性】
技术研发人员:崔世起杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1