一种网页抓取周期调整方法和装置制造方法及图纸

技术编号:8682879 阅读:163 留言:0更新日期:2013-05-09 02:48
本申请提供了一种网页抓取周期调整方法和装置,该方法获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页;确定该链接集合中属于所述目标网页中新产生的链接,并将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对目标网页的抓取周期。该方法可以提高确定出的网页抓取周期的精度,减少资源浪费。

【技术实现步骤摘要】

本申请涉及网络信息处理
,特别涉及一种网页抓取周期调整方法和装置
技术介绍
网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。通过网络爬虫对网页的网页信息进行抓取,并对抓取的网页信息进行分析,判断该网页中是否产生新的链接以确定该网页中是否产生新的内容页(即链接所指向的实际页面内容),从而可以监测到网页的变化。一般情况下,网络爬虫是按照目标网页的抓取周期,以固定的时间间隔来抓取该目标网页的网页信息,但是如果网络爬虫对该目标网页的抓取频率过低,则很可能会错过该目标网页中新产生的内容页,无法获取到相应的有用信息;如果抓取频率过高,则可能会导致资源的浪费。因此,需要根据网页的更新频率来调整网络爬虫对该网页的抓取周期,以减少错过有用信息,并避免资源浪费。在调整某网页的抓取周期时,一般是根据指定时间内该网络爬虫连续若干次抓取到的网页信息,确定在该指定时间内该网页中新增的链接数量或比例等,进而根据新增的链接数量或比例来调整抓取该目标网页的周期。然而对于某一个目标网页而言,某些情况下虽然该目标网页中产生了新的链接,但如果该新的链接所指向的内容页是与该目标网页没有任何关联关系的页面,那么网络爬虫从该新的链接所指向的内容页中并不能获取到与该目标网页相关的有用信息。也就是说,当目标网页中的新产生的链接仅仅是指向与该目标网页展现的内容信息毫无关联的内容页时,此时网络爬虫抓取该目标网页时,并不会获取到新的有用信息。因此,在这种情况下,即使目标网页中新产生了链接,并不能从实际上反映出该目标网页发生了更新。这样,如果仅以目标网页中新增的链接的数量和比例来调整抓取该目标网页的周期,则可能确定出与该目标网页的实际更新频率不符的抓取周期,导致抓取频率过高,造成资源浪费。
技术实现思路
本申请提供一种网页抓取周期调整方法和装置,以提高确定出的网页抓取周期的精度,减少资源浪费。本申请还提供了一种网页抓取周期调整装置,用以保证上述方法在实际中的实现及应用。为了解决上述问题,本申请公开了一种网页抓取周期调整方法,包括:获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;确定所述链接集合中属于所述目标网页中新产生的链接;判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。优选的,所述目标网页为Hub网页。优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同之前,还包括:依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接;所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括:从所述新产生的链接中提取出不属于广告链接的链接组成的第一子链接集合;所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同,包括:判断是否所述第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括:将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,包括:判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同,包括:判断是否所述新产生的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同。另一方面,本申请还提供了一种网页抓取周期调整装置,包括:信息获取单元,用于获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;新链接确定单元,用于确定所述链接集合中属于所述目标网页中新产生的链接;判断单元,用于判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;待分析链接确定单元,用于将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;周期调整单元,用于依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。优选的,所述目标网页为Hub网页。优选的,还包括:广告链接确定单元,用于依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接;第一集合确定单元,用于从所述新产生的链接中提取出不属于广告链接的链接组成的第一子链接集合;所述判断单元,具体为:用于判断是否所述第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;所述待分析链接确定单元,具体包括:链接确定子单元,用于将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。优选的,所述判断单元,包括:域名判断单元,用于判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。优选的,所述判断单元具体为:用于判断是否所述新产生的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同。与现有技术相比,本申请包括以下优点:在本申请该网页抓取周期调整方法中,当确定出获取到网络爬虫抓取的该目标网页中所包含的链接集合中新产生的链接后,仅将从该新产生的链接中所属网站与该目标网页所属的网站相同且所指向的信息页的面包屑导航链接中所包含的网页地址与该目标网页的网页地址相同的链接作为待分析链接,从而使得待分析链接能够反应目标网页的实际变化情况,进而使得依据不同次抓取操作所确定出的待分析链接,确定出的对该目标网页的抓取周期与该目标网页的实际更新频率相适应,既避免了错过有用信息又减少了由于抓取过于频率则造成资源浪费。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中本文档来自技高网
...

【技术保护点】
一种网页抓取周期调整方法,其特征在于,包括:获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;确定所述链接集合中属于所述目标网页中新产生的链接;判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。

【技术特征摘要】
1.一种网页抓取周期调整方法,其特征在于,包括: 获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页; 确定所述链接集合中属于所述目标网页中新产生的链接; 判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同; 将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接; 依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。2.根据权利要求1所述的方法,其特征在于,所述目标网页为Hub网页。3.根据权利要求1所述的方法,其特征在于,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同之前,还包括: 依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接; 从所述新产生的链接中提取出不属于广告链接的链接组成第一子链接集合; 所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同,包括: 判断是否所述第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同; 所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括: 将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。4.根据权利要求1所述的方法,其特征在于,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,包括: 判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。5.根据权利要求1或4所述的方法,其特征在于,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的...

【专利技术属性】
技术研发人员:崔世起杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1