网页筛选方法及装置制造方法及图纸

技术编号：8735148 阅读：155 留言：0更新日期：2013-05-26 11:44

本发明专利技术公开了一种网页筛选方法及装置。该方法包括：抓取预设种子网页；获取预设种子网页中所包含的URL信息；计算URL信息对应的网页质量分数；按照预设网络地址信息，将URL信息划分到相应的候选集合中；从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息，其中，筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数，预设压力配额为依据网络地址所对应的抓取压力值确定出；将筛选出的URL信息对应的网页作为目标抓取网页。通过利用本方案，实现了在保证网页质量的前提下，降低网页抓取失败风险或站点封禁风险，进而提高抓取网页的成功率的目的。

全部详细技术资料下载

【技术实现步骤摘要】
网页筛选方法及装置
本专利技术涉及信息检索
，特别是涉及一种适用于网络爬虫系统的网页筛选方法及装置。
技术介绍
作为搜索引擎重要组成的网络爬虫为一个自动提取网页的程序，其为搜索引擎从互联网上下载网页。为了满足搜索引擎快速而全面覆盖互联网有价值信息的需求，爬虫每天需要抓取大量网页。由于互联网中存在海量的网页信息，而网络爬虫的抓取能力有限，因此，为了筛选出较高网页质量的网页，现有的网页筛选方式包括：网络爬虫在抓取一个或若干种子网页后，抽取种子网页上的URL信息，依据当前分数计算标准计算出各URL信息对应的网页质量分数，并选择网页质量分数较高的部分URL信息（网页质量分数超过某一分数阈值的URL信息，或者，URL信息的数量在网络爬虫的能力范围内）作为目标抓取网页。而在筛选出目标抓取网页后，网络爬虫抓取目标抓取网页即可。但是，由于现有网页筛选方式着重于网页质量，可能使得某些网络站点中包括较多的目标抓取网页，导致超过网络站点对应的抓取压力；而另一些网络站点中包括较少或没有目标抓取网页。而当目标抓取网页数量超过抓取压力时，将会发生封禁或导致抓取失败。其中，所谓网络站点的抓取压力为单位时间内网络站点允许网络爬虫抓取本站点中网页的最大数量。可见，在保证网页质量的前提下，现有网页筛选方法会带来较高的网页抓取失败风险或站点封禁风险，最终导致抓取网页的成功率较低。
技术实现思路
为解决上述技术问题，本专利技术实施例提供了一种网页筛选方法及装置，以在保证网页质量的前提下，提高抓取网页的成功率，技术方案如下：第一方面，本专利技术实施例提供了一种网页筛选方法，适用于网络爬虫系统，所...

【技术保护点】
一种网页筛选方法，其特征在于，适用于网络爬虫系统，所述方法包括：抓取预设种子网页；获取所述预设种子网页中所包含的URL信息；计算所述URL信息对应的网页质量分数；按照预设网络地址信息，将所述URL信息划分到相应的候选集合中，其中，同一候选集合的URL信息对应同一网络地址；从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息，其中，筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数，所述预设压力配额为依据网络地址所对应的抓取压力值确定出；将筛选出的URL信息对应的网页作为目标抓取网页。

【技术特征摘要】
1.一种网页筛选方法，其特征在于，适用于网络爬虫系统，所述方法包括：抓取预设种子网页；获取所述预设种子网页中所包含的URL信息；计算所述URL信息对应的网页质量分数；按照预设网络地址信息，将所述URL信息划分到相应的候选集合中，其中，同一候选集合的URL信息对应同一网络地址；从每一候选集合中筛选出数量不超过相应预设压力配额的URL信息，其中，筛选出的URL信息对应的网页质量分数不低于相应候选集合中任意剩余URL信息对应的网页质量分数，所述预设压力配额为依据网络地址所对应的抓取压力值确定出；将筛选出的URL信息对应的网页作为目标抓取网页；当首次抓取网页时，抓取预设种子网页包括：抓取默认导航页；当非首次抓取网页时，抓取预设种子网页包括：抓取之前所确定出的目标抓取网页；从一候选集合中筛选出数量不超过相应预设压力配额的URL信息，包括：判断候选集合中所包含URL信息的数量是否不超过相应预设压力配额；如果是，将所述候选集合中所包含的所有URL信息作为筛选出的URL信息；否则，将所述候选集合中URL信息按照网页质量分数进行降序排列；将已筛选数量初始化为0；按照降序序列，依次处理所述候选集合中的URL信息：判断已筛选数量是否不大于预设压力配额，如果是，将当前的URL信息作为筛选出的URL信息，并将已筛选数量加1；否则，结束对所述候选集合中URL信息的筛选处理。2.根据权利要求1所述的方法，其特征在于，所述预设网络地址信息包括：网页模式信息、站点信息或主域信息。3.一种网页筛选装置，其特征在于，适用于网络爬虫系统，所述网页筛选装置包括：种子网页抓取模块，用...

【专利技术属性】
技术研发人员：张恒，崔世起，杨青，
申请(专利权)人：人民搜索网络股份公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人