对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置制造方法及图纸

技术编号:15021384 阅读:46 留言:0更新日期:2017-04-04 23:32
本申请提供一种对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置。该网页抓取的控制方法包括:预先存储黑名单和白名单,在黑名单中指示有禁止出现在搜索网页上的敏感关键词,在白名单中指示有允许出现在搜索网页上的非敏感关键词,响应于对网站网页的抓取请求,从网站网页中提取出关键词;判断关键词是否在黑名单中,如果在黑名单中,拒绝抓取请求,如果不在黑名单中,判断关键词是否在白名单中,如果在白名单中,允许抓取请求,如果不在白名单中,拒绝抓取请求。通过本申请,可以有效控制网页抓取的范围,尽量避免在抓取到的网站网页上出现敏感关键词,一方面提高搜索质量,另一方面提高搜索引擎对信息收录的及时性和有效性。

【技术实现步骤摘要】

本申请涉及计算机应用领域,特别是涉及对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置
技术介绍
搜索引擎将所有万维网上的信息收录并整理在一个平台上供网民使用。网络爬虫是一种自动抓取网页的程序,它为搜索引擎从万维网上抓取网页,是搜索引擎的重要组成部分。传统的网络爬虫从一个或若干个初始网页的URL(UniformResourceLocator,统一资源定位符)开始,抓取初始网页的URL,并且,在抓取过程中,不断地从当前网页上抽取新的URL,直到满足系统设定的停止条件为止。各种类型的网站(如,电子商务网站或门户网站)可以对外提供大量的网站网页的URL,以供网络爬虫抓取。例如,在电子商务网站,其对外提供的网站网页的URL为各种商品网页的URL;在门户网站,其对外提供的网站网页的URL为各种新闻网页的URL。但是,在实现本申请的过程中,本申请的专利技术人发现现有技术中至少存在如下问题:一些恶意分子很可能会根据某个网站对外提供的网站网页的URL,而破解出URL的拼装规则,并根据拼装规则为某个网站伪造出一些垃圾网站网页的URL,通常,这些垃圾网站网页会带有一些敏感关键词,如,低俗的黄色关键词或者与政治相关的关键词等。如果网络爬虫从各类网站提供的网站网页的URL中抓取到这些伪造的垃圾网站网页的URL,一方面,搜索引擎有可能会将这些垃圾网站网页作为搜索网页提供给搜索用户,但实际上,这些垃圾网站网页的并不是搜索用户想要得到的搜索结果,这样就会影响搜索结果的相关性,最终导致搜索质量变差;另一方面,网络爬虫的抓取能力是有限的,如果网络爬虫抓取了某个网站内海量的垃圾网站网页的URL,就要花费更长的时间才能抓取到该网站内正常网站网页的URL,甚至是根本无力再抓取该网站内正常网站网页的URL,这会影响搜索引擎对信息收录的及时性以及有效性。
技术实现思路
为了解决上述技术问题,本申请实施例提供了对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置,可以有效控制网页抓取的范围,以尽量避免在抓取到的网站网页上出现敏感关键词,一方面可以提高搜索质量,另一方面也可以提高搜索引擎对信息收录的及时性以及有效性。本申请实施例公开了如下技术方案:一种对网页抓取的控制方法,预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词,所述方法包括:响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;判断所述关键词是否在所述黑名单中,如果在所述黑名单中,拒绝对所述网站网页的抓取请求,如果不在所述黑名单中,则判断所述关键词是否在所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如果不在所述白名单中,拒绝对所述网站网页的抓取请求。一种动态更新黑名单和白名单的方法,包括:将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;判断所述待分类关键词是否在所述白名单中,如果在所述白名单中,则判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈值,将所述待分类关键词归入到所述白名单中。一种对网页抓取的控制装置,包括:存储单元,用于预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;提取单元,用于响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;第一响应单元,用于判断所述关键词是否在所述黑名单中,如果不在所述黑名单中,判断所述关键词是否在所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如果不在所述白名单中,拒绝对所述网站网页的抓取请求;第二响应单元,用于如果在所述黑名单中,拒绝对所述网站网页的抓取请求。一种动态更新黑名单和白名单的装置,包括:第一计算单元,用于将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;第一分类单元,用于判断所述待分类关键词是否在所述白名单中,如果在所述白名单,则判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈值,将所述待分类关键词归入到所述白名单中。由上述实施例可以看出,与现有技术相比,本申请的优点在于:在本申请中,建立一种黑名单和白名单相结合的机制,并在网络爬虫抓取网站网页之前,通过黑名单和白名单来确定该网站网页上是否是存在敏感关键词的垃圾网站网页,如果是,就拒绝网络爬虫抓取该网站网页,如果不是,就允许网络爬虫抓取该网站网页。因此,有效控制网页抓取的范围,以尽量避免在抓取到的网站网页上出现敏感关键词,一方面可以提高搜索质量,另一方面也可以提高搜索引擎对信息收录的及时性以及有效性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1示意性地示出了本申请的实施方式可以在其中实施的示例性应用场景;图2示意性地示出了本申请一种对网页抓取的控制方法的一个实施例的流程图;图3示意性地示出了本申请一种在一个更新周期对黑名单和白名单进行更新的方法的一个实施例的流程图;图4示意性地示出了本申请一种对网页抓取的控制装置的一个实施例的结构框图;图5示意性地示出了本申请一种对网页抓取的控制装置的另一个实施例的结构框图;图6示意性地示出了本申请一种对网页抓取的控制本文档来自技高网
...

【技术保护点】
一种对网页抓取的控制方法,其特征在于,预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词,所述方法包括:响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;判断所述关键词是否在所述黑名单中,如果在所述黑名单中,拒绝对所述网站网页的抓取请求,如果不在所述黑名单中,则判断所述关键词是否在所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如果不在所述白名单中,拒绝对所述网站网页的抓取请求。

【技术特征摘要】
1.一种对网页抓取的控制方法,其特征在于,预先存储黑名单和白名单,
在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单
中指示有允许出现在搜索网页上的非敏感关键词,所述方法包括:
响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;
判断所述关键词是否在所述黑名单中,如果在所述黑名单中,拒绝对所
述网站网页的抓取请求,如果不在所述黑名单中,则判断所述关键词是否在
所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如
果不在所述白名单中,拒绝对所述网站网页的抓取请求。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述黑名单和所述白名单中的关键词,和/或,从用户访问日志和/或网
络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的
当前引流能力值;
判断所述待分类关键词是否在所述白名单中,如果在所述白名单中,则
判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力
阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归
入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈
值,将所述待分类关键词归入到所述白名单中。
3.根据权利要求2所述的方法,其特征在于,还包括:
如果不在所述白名单中,判断所述待分类关键词的当前引流能力值是否
大于或等于预定的强引流能力阈值,如果大于或等于预定的强引流能力阈值,
将所述待分类关键词归入到所述白名单中。
4.根据权利要求3所述的方法,其特征在于,还包括:
如果小于预定的强引流能力阈值,判断所述待分类关键词是否符合预定
的作弊关键词的条件,如果符合预定的作弊关键词的条件,将所述待分类关
键词归入到所述黑名单中,如果不符合预定的作弊关键词的条件,则判断所
述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,
如果符合预定的至少一个低质量关键词条件中的任意一个,将所述待分类关
键词既不加入所述黑名单中也不加入所述白名单中。
5.根据权利要求4所述的方法,其特征在于,还包括:
如果不符合预定的至少一个低质量关键词条件中的任意一个,计算所述
待分类关键词的综合反向权重值;
判断所述综合反向权重值是否小于或等于预定的权重阈值,如果小于或
等于预定的权重阈值,将所述待分类关键词归入到所述白名单中,如果大于
预定的权重阈值,将所述待分类关键词既不加入所述黑名单中也不加入所述
白名单中。
6.根据权利要求4或5所述的方法,其特征在于,所述预定的至少一个
低质量关键词条件包括:所述待分类关键词包含乱码、所述待分类关键词的
长度大于预定的长度阈值或者小于预定的长度阈值、所述待分类关键词在网
站内的搜索结果数小于预定的搜索结果数阈值和所述待分类关键词在一个访
问流量统计周期内没有访问流量中的任意一个或任意多个组合。
7.一种动态更新黑名单和白名单的方法,其特征在于,包括:
将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日
志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流
能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,
在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;
判断所述待分类关键词是否在所述白名单中,如果在所述白名单中,则
判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力
阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归
入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈
值,将所述待分类关键词归入到所述白名单中。
8.根据权利要求7所述的方法,其特征在于,还包括:
如果不在所述白名单中,判断所述待分类关键词的当前引流能力值是否
大于或等于预定的强引流能力阈值,如果大于或等于预定的强引流能力阈值,
将所述待分类关键词归入到所述白名单中。
9.根据权利要求8所述的方法,其特征在于,还包括:
如果小于预定的强引流能力阈值,判断所述待分类关键词是否符合预定
的作弊关键词的条件,如果符合预定的作弊关键词的条件,将所述待分类关
键词归入到所述黑名单中,如果不符合预定的作弊关键词的条件,则判断所

\t述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,
如果符合预定的至少一个低质量关键词条件中的任意一个,将所述待分类关
键词既不加入所述黑名单中...

【专利技术属性】
技术研发人员:黄华张美德吴胜兰刘庆周文军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1