【技术实现步骤摘要】
本申请涉及计算机应用领域,特别是涉及对网页抓取的控制方法、动态更新黑名单和白名单的方法及相关装置。
技术介绍
搜索引擎将所有万维网上的信息收录并整理在一个平台上供网民使用。网络爬虫是一种自动抓取网页的程序,它为搜索引擎从万维网上抓取网页,是搜索引擎的重要组成部分。传统的网络爬虫从一个或若干个初始网页的URL(UniformResourceLocator,统一资源定位符)开始,抓取初始网页的URL,并且,在抓取过程中,不断地从当前网页上抽取新的URL,直到满足系统设定的停止条件为止。各种类型的网站(如,电子商务网站或门户网站)可以对外提供大量的网站网页的URL,以供网络爬虫抓取。例如,在电子商务网站,其对外提供的网站网页的URL为各种商品网页的URL;在门户网站,其对外提供的网站网页的URL为各种新闻网页的URL。但是,在实现本申请的过程中,本申请的专利技术人发现现有技术中至少存在如下问题:一些恶意分子很可能会根据某个网站对外提供的网站网页的URL,而破解出URL的拼装规则,并根据拼装规则为某个网站伪造出一些垃圾网站网页的URL,通常,这些垃圾网站网页会带有一些敏感关键词,如,低俗的黄色关键词或者与政治相关的关键词等。如果网络爬虫从各类网站提供的网站网页的URL中抓取到这些伪造的垃圾网站网页的URL,一方面,搜索引擎有可能会将这些垃圾网站网页作为搜索网页提供给搜索用户,但实际上,这些垃圾网站 ...
【技术保护点】
一种对网页抓取的控制方法,其特征在于,预先存储黑名单和白名单,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单中指示有允许出现在搜索网页上的非敏感关键词,所述方法包括:响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;判断所述关键词是否在所述黑名单中,如果在所述黑名单中,拒绝对所述网站网页的抓取请求,如果不在所述黑名单中,则判断所述关键词是否在所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如果不在所述白名单中,拒绝对所述网站网页的抓取请求。
【技术特征摘要】
1.一种对网页抓取的控制方法,其特征在于,预先存储黑名单和白名单,
在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,在所述白名单
中指示有允许出现在搜索网页上的非敏感关键词,所述方法包括:
响应于对网站网页的抓取请求,从所述网站网页中提取出关键词;
判断所述关键词是否在所述黑名单中,如果在所述黑名单中,拒绝对所
述网站网页的抓取请求,如果不在所述黑名单中,则判断所述关键词是否在
所述白名单中,如果在所述白名单中,允许对所述网站网页的抓取请求,如
果不在所述白名单中,拒绝对所述网站网页的抓取请求。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述黑名单和所述白名单中的关键词,和/或,从用户访问日志和/或网
络爬虫日志中提取出的关键词作为待分类关键词,并计算所述待分类关键的
当前引流能力值;
判断所述待分类关键词是否在所述白名单中,如果在所述白名单中,则
判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力
阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归
入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈
值,将所述待分类关键词归入到所述白名单中。
3.根据权利要求2所述的方法,其特征在于,还包括:
如果不在所述白名单中,判断所述待分类关键词的当前引流能力值是否
大于或等于预定的强引流能力阈值,如果大于或等于预定的强引流能力阈值,
将所述待分类关键词归入到所述白名单中。
4.根据权利要求3所述的方法,其特征在于,还包括:
如果小于预定的强引流能力阈值,判断所述待分类关键词是否符合预定
的作弊关键词的条件,如果符合预定的作弊关键词的条件,将所述待分类关
键词归入到所述黑名单中,如果不符合预定的作弊关键词的条件,则判断所
述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,
如果符合预定的至少一个低质量关键词条件中的任意一个,将所述待分类关
键词既不加入所述黑名单中也不加入所述白名单中。
5.根据权利要求4所述的方法,其特征在于,还包括:
如果不符合预定的至少一个低质量关键词条件中的任意一个,计算所述
待分类关键词的综合反向权重值;
判断所述综合反向权重值是否小于或等于预定的权重阈值,如果小于或
等于预定的权重阈值,将所述待分类关键词归入到所述白名单中,如果大于
预定的权重阈值,将所述待分类关键词既不加入所述黑名单中也不加入所述
白名单中。
6.根据权利要求4或5所述的方法,其特征在于,所述预定的至少一个
低质量关键词条件包括:所述待分类关键词包含乱码、所述待分类关键词的
长度大于预定的长度阈值或者小于预定的长度阈值、所述待分类关键词在网
站内的搜索结果数小于预定的搜索结果数阈值和所述待分类关键词在一个访
问流量统计周期内没有访问流量中的任意一个或任意多个组合。
7.一种动态更新黑名单和白名单的方法,其特征在于,包括:
将黑名单和白名单中的关键词,和/或,从用户访问日志和/或网络爬虫日
志中提取出的关键词作为待分类关键词,并计算所述待分类关键的当前引流
能力值,其中,在所述黑名单中指示有禁止出现在搜索网页上的敏感关键词,
在所述白名单中指示有允许出现在搜索网页上的非敏感关键词;
判断所述待分类关键词是否在所述白名单中,如果在所述白名单中,则
判断所述待分类关键词的当前引流能力值是否小于或等于预定的弱引流能力
阈值,如果小于或等于预定的弱引流能力阈值,将所述待分类关键词既不归
入到所述黑名单中也不归入到所述白名单中,如果大于预定的弱引流能力阈
值,将所述待分类关键词归入到所述白名单中。
8.根据权利要求7所述的方法,其特征在于,还包括:
如果不在所述白名单中,判断所述待分类关键词的当前引流能力值是否
大于或等于预定的强引流能力阈值,如果大于或等于预定的强引流能力阈值,
将所述待分类关键词归入到所述白名单中。
9.根据权利要求8所述的方法,其特征在于,还包括:
如果小于预定的强引流能力阈值,判断所述待分类关键词是否符合预定
的作弊关键词的条件,如果符合预定的作弊关键词的条件,将所述待分类关
键词归入到所述黑名单中,如果不符合预定的作弊关键词的条件,则判断所
\t述待分类关键词是否符合预定的至少一个低质量关键词条件中的任意一个,
如果符合预定的至少一个低质量关键词条件中的任意一个,将所述待分类关
键词既不加入所述黑名单中...
【专利技术属性】
技术研发人员:黄华,张美德,吴胜兰,刘庆,周文军,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。