网络爬虫检测方法、装置、存储介质及电子设备制造方法及图纸

技术编号:24215718 阅读:28 留言:0更新日期:2020-05-20 19:01
本申请公开了一种网络爬虫检测方法、装置、存储介质及电子设备,涉及互联网技术。具体方案包括:获取目标请求端对受保护网站的当前访问请求产生的当前访问数据;获取所述目标请求端的历史访问数据,并根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率;根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值;根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率;根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求。本申请可以有效检测采用低端爬虫技术至高端爬虫技术的网络爬虫,有效提升对网络爬虫的检测能力。

Detection method, device, storage medium and electronic equipment of web crawler

【技术实现步骤摘要】
网络爬虫检测方法、装置、存储介质及电子设备
本申请涉及互联网技术,特别是涉及一种网络爬虫检测方法、装置、存储介质及电子设备。
技术介绍
网络爬虫起始于搜索引擎领域,搜索引擎用网络爬虫收集网站信息,将收集的网站信息组合后确定检索关键词,方便用户使用检索关键词进行搜索。遵守robots协议的网站会在根目录下创建robots.txt文件,在robots.txt文件中明确规定允许使用网络爬虫的搜索引擎名称和允许网络爬虫爬取的目录。但是,现在出现了越来越多不遵守robots协议的网络爬虫,对网站信息进行肆意的爬取和公开展示,因此,为了保护网站信息的独有性,研究反爬虫策略十分重要。现有的反爬虫策略主要根据访问请求的统计数据或特征数据,确定发出访问请求的目标请求端是否为网络爬虫。现有的反爬虫策略仅能识别出大部分采用低端爬虫技术的网络爬虫,但是现在越来越多的网络爬虫采用控制访问频率、利用分布式请求端、基于浏览器解析等方式来绕过传统的反爬虫策略,现有的反爬虫策略对网络爬虫检测能力较低。
技术实现思路
有鉴于此,本申请的主要目的在于提供一种网络爬虫检测方法,该方法可以有效检测采用低端爬虫技术至高端爬虫技术的网络爬虫,有效提升对网络爬虫的检测能力。为了达到上述目的,本申请提出的技术方案为:第一方面,本申请实施例提供一种网络爬虫检测方法,包括以下步骤:获取目标请求端对受保护网站的当前访问请求产生的当前访问数据;获取所述目标请求端的历史访问数据,并根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率;根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值;根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率;根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求。一种可能的实施方式中,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤,包括:将所述目标请求端对所述受保护网站的所述当前访问请求产生的数据流进行镜像,得到第一镜像数据;将所述第一镜像数据作为所述当前访问数据获取。一种可能的实施方式中,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤,包括:将对所述受保护网站所在的网络端口的访问请求产生的数据流进行镜像,得到第二镜像数据;根据所述受保护网站的域名和所述目标请求端的地址,从所述第二镜像数据中确定所述当前访问数据。一种可能的实施方式中,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤之后,所述获取所述目标请求端的历史访问数据的步骤之前,所述方法还包括:基于所述当前访问数据的统计数据或特征数据,确定所述目标请求端是否是网络爬虫;当所述目标请求端不是网络爬虫时,执行所述获取所述目标请求端的历史访问数据的步骤。一种可能的实施方式中,所述根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率的步骤,包括:根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问总次数;根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站的同一页面进行两次以上访问的重复访问次数;根据所述访问总次数和所述重复访问次数,确定所述访问重复率。一种可能的实施方式中,所述至少一种访问策略包括:第一访问策略:当所述目标请求端不是网络爬虫时所述网站服务端通过所述当前访问请求;第二访问策略:当所述目标请求端不是网络爬虫时所述网站服务端禁止所述当前访问请求;第三访问策略:当所述目标请求端是网络爬虫时所述网站服务端通过所述当前访问请求;第四访问策略:以及当所述目标请求端是网络爬虫时所述网站服务端禁止所述当前访问请求;所述根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值的步骤,包括:针对所述至少一种访问策略,根据所述访问重复率确定该访问策略的当前收益值;根据该访问策略的当前收益值,确定该访问策略的收益值。一种可能的实施方式中,所述根据该访问策略的当前收益值,确定该访问策略的收益值的步骤,包括:将该访问策略的当前收益值,确定为该访问策略的收益值。一种可能的实施方式中,所述根据该访问策略的当前收益值,确定该访问策略的收益值的步骤,包括:根据所述当前访问数据,确定所述当前访问请求为所述当前收益值带来的增益;针对所述至少一种访问策略,根据该访问策略的当前收益值及所述增益,确定该访问策略的收益值。一种可能的实施方式中,所述爬虫概率为正常访问概率;所述预设爬虫概率阈值为预设爬虫访问阈值;所述根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率的步骤,包括:根据所述至少一种访问策略的收益值,确定所述当前访问请求是正常访问请求的概率,作为正常访问概率;所述根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求的步骤,包括:当所述正常访问概率小于预设爬虫访问阈值时,所述当前访问请求是网络爬虫发出的访问请求。一种可能的实施方式中,所述爬虫概率为允许访问概率;所述预设爬虫概率阈值为预设允许访问阈值;所述根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率的步骤,包括:根据所述至少一种访问策略的收益值,确定所述网站服务端允许所述当前访问请求的概率,作为允许访问概率;所述根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求的步骤,包括:当所述允许访问概率小于预设允许访问阈值时,所述当前访问请求是网络爬虫发出的访问请求。一种可能的实施方式中,所述确定所述当前访问请求的爬虫概率的步骤之后,所述根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求的步骤之前,所述方法还包括:确定所述预设爬虫概率阈值。一种可能的实施方式中,所述确定所述预设爬虫概率阈值的步骤,包括:根据受保护网站的保护强度,确定预设爬虫概率阈值的取值范围;从所述预设爬虫概率阈值的取值范围中,确定所述预设爬虫概率阈值。第二方面,本申请实施例提供一种网络爬虫检测装置,包括:请求获取模块,用于获取目标请求端对受保护网站的当前访问请求产生的当前访问数据;历史获取模块,用于获取所述目标请求端的历史访问数据;重复率确定模块,用于根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率;收益值确定模块,用于根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值;概率确定模块,用于根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率;<本文档来自技高网...

【技术保护点】
1.一种网络爬虫检测方法,其特征在于,包括:/n获取目标请求端对受保护网站的当前访问请求产生的当前访问数据;/n获取所述目标请求端的历史访问数据,并根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率;/n根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值;/n根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率;/n根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求。/n

【技术特征摘要】
1.一种网络爬虫检测方法,其特征在于,包括:
获取目标请求端对受保护网站的当前访问请求产生的当前访问数据;
获取所述目标请求端的历史访问数据,并根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率;
根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值;
根据所述至少一种访问策略的收益值,确定所述当前访问请求的爬虫概率;
根据所述爬虫概率与预设爬虫概率阈值,确定所述当前访问请求是否是网络爬虫发出的访问请求。


2.根据权利要求1所述的方法,其特征在于,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤,包括:
将所述目标请求端对所述受保护网站的所述当前访问请求产生的数据流进行镜像,得到第一镜像数据;
将所述第一镜像数据作为所述当前访问数据获取。


3.根据权利要求1所述的方法,其特征在于,所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤,包括:
将对所述受保护网站所在的网络端口的访问请求产生的数据流进行镜像,得到第二镜像数据;
根据所述受保护网站的域名和所述目标请求端的地址,从所述第二镜像数据中确定所述当前访问数据。


4.根据权利要求1所述的方法,其特征在于,所述根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问重复率的步骤,包括:
根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站中的页面的访问总次数;
根据所述当前访问数据及所述历史访问数据,确定所述目标请求端对所述受保护网站的同一页面进行两次以上访问的重复访问次数;
根据所述访问总次数和所述重复访问次数,确定所述访问重复率。


5.根据权利要求1所述的方法,其特征在于,所述至少一种访问策略包括:第一访问策略:当所述目标请求端不是网络爬虫时所述网站服务端通过所述当前访问请求;第二访问策略:当所述目标请求端不是网络爬虫时所述网站服务端禁止所述当前访问请求;第三访问策略:当所述目标请求端是网络爬虫时所述网站服务端通过所述当前访问请求;第四访问策略:以及当所述目标请求端是网络爬虫时所述网站服务端禁止所述当前访问请求;
所述根据所述访问重复率,确定网站服务端分别执行至少一种访问策略时各自的收益值的步骤,包括:
针对所述至少一种访问策略,根据所述访问重复率确定该访问策...

【专利技术属性】
技术研发人员:陈亮钟嘉琳
申请(专利权)人:贝壳技术有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1