网页筛选方法及装置制造方法及图纸

技术编号:8735148 阅读:155 留言:0更新日期:2013-05-26 11:44
本发明专利技术公开了一种网页筛选方法及装置。该方法包括:抓取预设种子网页;获取预设种子网页中所包含的URL信息;计算URL信息对应的网页质量分数;按照预设网络地址信息,将URL信息划分到相应的候选集合中;从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,预设压力配额为依据网络地址所对应的抓取压力值确定出;将筛选出的URL信息对应的网页作为目标抓取网页。通过利用本方案,实现了在保证网页质量的前提下,降低网页抓取失败风险或站点封禁风险,进而提高抓取网页的成功率的目的。

【技术实现步骤摘要】
网页筛选方法及装置
本专利技术涉及信息检索
,特别是涉及一种适用于网络爬虫系统的网页筛选方法及装置。
技术介绍
作为搜索引擎重要组成的网络爬虫为一个自动提取网页的程序,其为搜索引擎从互联网上下载网页。为了满足搜索引擎快速而全面覆盖互联网有价值信息的需求,爬虫每天需要抓取大量网页。由于互联网中存在海量的网页信息,而网络爬虫的抓取能力有限,因此,为了筛选出较高网页质量的网页,现有的网页筛选方式包括:网络爬虫在抓取一个或若干种子网页后,抽取种子网页上的URL信息,依据当前分数计算标准计算出各URL信息对应的网页质量分数,并选择网页质量分数较高的部分URL信息(网页质量分数超过某一分数阈值的URL信息,或者,URL信息的数量在网络爬虫的能力范围内)作为目标抓取网页。而在筛选出目标抓取网页后,网络爬虫抓取目标抓取网页即可。但是,由于现有网页筛选方式着重于网页质量,可能使得某些网络站点中包括较多的目标抓取网页,导致超过网络站点对应的抓取压力;而另一些网络站点中包括较少或没有目标抓取网页。而当目标抓取网页数量超过抓取压力时,将会发生封禁或导致抓取失败。其中,所谓网络站点的抓取压力为单位时间内网络站点允许网络爬虫抓取本站点中网页的最大数量。可见,在保证网页质量的前提下,现有网页筛选方法会带来较高的网页抓取失败风险或站点封禁风险,最终导致抓取网页的成功率较低。
技术实现思路
为解决上述技术问题,本专利技术实施例提供了一种网页筛选方法及装置,以在保证网页质量的前提下,提高抓取网页的成功率,技术方案如下:第一方面,本专利技术实施例提供了一种网页筛选方法,适用于网络爬虫系统,所述方法包括:抓取预设种子网页;获取所述预设种子网页中所包含的URL信息;计算所述URL信息对应的网页质量分数;按照预设网络地址信息,将所述URL信息划分到相应的候选集合中,其中,同一候选集合的URL信息对应同一网络地址;从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,所述预设压力配额为依据网络地址所对应的抓取压力值确定出;将筛选出的URL信息对应的网页作为目标抓取网页。其中,当首次抓取网页时,抓取预设种子网页包括:抓取默认导航页。其中,当非首次抓取网页时,抓取预设种子网页包括:抓取之前所确定出的目标抓取网页。其中,所述预设网络地址信息包括:网页模式信息、站点信息或主域信息。其中,从一候选集合中筛选出数量不超过相应预设压力配额的URL信息,包括:将候选集合中URL信息按照网页质量分数进行降序排列;将已筛选数量初始化为0;按照降序序列,依次处理所述候选集合中的URL信息:判断已筛选数量是否不大于预设压力配额,如果是,将当前的URL信息作为筛选出的URL信息,并将已筛选数量加1;否则,结束对所述候选集合中URL信息的筛选处理。其中,从一候选集合中筛选出数量不超过相应预设压力配额的URL信息,包括:判断候选集合中所包含URL信息的数量是否不超过相应预设压力配额;如果是,将所述候选集合中所包含的所有URL信息作为筛选出的URL信息;否则,将所述候选集合中URL信息按照网页质量分数进行降序排列;将已筛选数量初始化为0;按照降序序列,依次处理所述候选集合中的URL信息:判断已筛选数量是否不大于预设压力配额,如果是,将当前的URL信息作为筛选出的URL信息,并将已筛选数量加1;否则,结束对所述候选集合中URL信息的筛选处理。第二方面,本专利技术实施例还提供了一种网页筛选装置,适用于网络爬虫系统,所述网页筛选装置包括:种子网页抓取模块,用于抓取预设种子网页;URL信息确定模块,用于获取所述预设种子网页中所包含的URL信息;网页质量分数确定模块,用于计算所述URL信息对应的网页质量分数;候选集合确定模块,用于按照预设网络地址信息,将所述URL信息划分到相应的候选集合中,其中,同一候选集合的URL信息对应同一网络地址;URL信息筛选模块,用于从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,所述预设压力配额为依据网络地址所对应的抓取压力值确定出;目标抓取网页确定模块,用于将筛选出的URL信息对应的网页作为目标抓取网页。其中,所述种子网页抓取模块,包括:第一种子网页抓取单元,用于当首次抓取网页时,抓取默认导航页。其中,所述种子网页抓取模块,包括:第二种子网页抓取单元,用于当非首次抓取网页时,抓取之前所确定出的目标抓取网页。其中,所述URL信息筛选模块包括:第一URL信息筛选单元;所述第一URL信息筛选单元从一候选集合中筛选出数量不超过相应预设压力配额的URL信息,包括:将候选集合中URL信息按照网页质量分数进行降序排列;将已筛选数量初始化为0;按照降序序列,依次处理所述候选集合中的URL信息:判断已筛选数量是否不大于预设压力配额,如果是,将当前的URL信息作为筛选出的URL信息,并将已筛选数量加1;否则,结束对所述候选集合中URL信息的筛选处理。其中,所述URL信息筛选模块包括:第二URL信息筛选单元;所述第二URL信息筛选单元从一候选集合中筛选出数量不超过相应预设压力配额的URL信息,包括:判断候选集合中所包含URL信息的数量是否不超过相应预设压力配额;如果是,将所述候选集合中所包含的所有URL信息作为筛选出的URL信息;否则,将所述候选集合中URL信息按照网页质量分数进行降序排列;将已筛选数量初始化为0;按照降序序列,依次处理所述候选集合中的URL信息:判断已筛选数量是否不大于预设压力配额,如果是,将当前的URL信息作为筛选出的URL信息,并将已筛选数量加1;否则,结束对所述候选集合中URL信息的筛选处理。与现有技术相比,本专利技术实施例所提供的技术方案中,按照预设网络地址信息,将预设种子网页所包含的URL信息划分到相应的候选集合中,并从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,所述预设压力配额为依据网络地址所对应的抓取压力值确定出。可见,通过利用本方案,实现了在保证网页质量的前提下,降低网页抓取失败风险或站点封禁风险,进而提高抓取网页的成功率的目的。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例所提供的一种网页筛选方法的第一种流程图;图2为本专利技术实施例所提供的一种网页筛选方法的第二种流程图;图3为本专利技术实施例所提供的一种网页筛选方法的第三种流程图;图4为本专利技术实施例所提供的一种网页筛选装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做本文档来自技高网...
网页筛选方法及装置

【技术保护点】
一种网页筛选方法,其特征在于,适用于网络爬虫系统,所述方法包括:抓取预设种子网页;获取所述预设种子网页中所包含的URL信息;计算所述URL信息对应的网页质量分数;按照预设网络地址信息,将所述URL信息划分到相应的候选集合中,其中,同一候选集合的URL信息对应同一网络地址;从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,所述预设压力配额为依据网络地址所对应的抓取压力值确定出;将筛选出的URL信息对应的网页作为目标抓取网页。

【技术特征摘要】
1.一种网页筛选方法,其特征在于,适用于网络爬虫系统,所述方法包括:抓取预设种子网页;获取所述预设种子网页中所包含的URL信息;计算所述URL信息对应的网页质量分数;按照预设网络地址信息,将所述URL信息划分到相应的候选集合中,其中,同一候选集合的URL信息对应同一网络地址;从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息,其中,筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数,所述预设压力配额为依据网络地址所对应的抓取压力值确定出;将筛选出的URL信息对应的网页作为目标抓取网页;当首次抓取网页时,抓取预设种子网页包括:抓取默认导航页;当非首次抓取网页时,抓取预设种子网页包括:抓取之前所确定出的目标抓取网页;从一候选集合中筛选出数量不超过相应预设压力配额的URL信息,包括:判断候选集合中所包含URL信息的数量是否不超过相应预设压力配额;如果是,将所述候选集合中所包含的所有URL信息作为筛选出的URL信息;否则,将所述候选集合中URL信息按照网页质量分数进行降序排列;将已筛选数量初始化为0;按照降序序列,依次处理所述候选集合中的URL信息:判断已筛选数量是否不大于预设压力配额,如果是,将当前的URL信息作为筛选出的URL信息,并将已筛选数量加1;否则,结束对所述候选集合中URL信息的筛选处理。2.根据权利要求1所述的方法,其特征在于,所述预设网络地址信息包括:网页模式信息、站点信息或主域信息。3.一种网页筛选装置,其特征在于,适用于网络爬虫系统,所述网页筛选装置包括:种子网页抓取模块,用...

【专利技术属性】
技术研发人员:张恒崔世起杨青
申请(专利权)人:人民搜索网络股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1