网络爬虫检测方法、装置、存储介质及电子设备制造方法及图纸

技术编号：24215718 阅读：28 留言：0更新日期：2020-05-20 19:01

本申请公开了一种网络爬虫检测方法、装置、存储介质及电子设备，涉及互联网技术。具体方案包括：获取目标请求端对受保护网站的当前访问请求产生的当前访问数据；获取所述目标请求端的历史访问数据，并根据所述当前访问数据及所述历史访问数据，确定所述目标请求端对所述受保护网站中的页面的访问重复率；根据所述访问重复率，确定网站服务端分别执行至少一种访问策略时各自的收益值；根据所述至少一种访问策略的收益值，确定所述当前访问请求的爬虫概率；根据所述爬虫概率与预设爬虫概率阈值，确定所述当前访问请求是否是网络爬虫发出的访问请求。本申请可以有效检测采用低端爬虫技术至高端爬虫技术的网络爬虫，有效提升对网络爬虫的检测能力。

Detection method, device, storage medium and electronic equipment of web crawler

全部详细技术资料下载

【技术实现步骤摘要】
网络爬虫检测方法、装置、存储介质及电子设备
本申请涉及互联网技术，特别是涉及一种网络爬虫检测方法、装置、存储介质及电子设备。
技术介绍
网络爬虫起始于搜索引擎领域，搜索引擎用网络爬虫收集网站信息，将收集的网站信息组合后确定检索关键词，方便用户使用检索关键词进行搜索。遵守robots协议的网站会在根目录下创建robots.txt文件，在robots.txt文件中明确规定允许使用网络爬虫的搜索引擎名称和允许网络爬虫爬取的目录。但是，现在出现了越来越多不遵守robots协议的网络爬虫，对网站信息进行肆意的爬取和公开展示，因此，为了保护网站信息的独有性，研究反爬虫策略十分重要。现有的反爬虫策略主要根据访问请求的统计数据或特征数据，确定发出访问请求的目标请求端是否为网络爬虫。现有的反爬虫策略仅能识别出大部分采用低端爬虫技术的网络爬虫，但是现在越来越多的网络爬虫采用控制访问频率、利用分布式请求端、基于浏览器解析等方式来绕过传统的反爬虫策略，现有的反爬虫策略对网络爬虫检测能力较低。
技术实现思路
有鉴于此，本申请的主要目的在于提供一种网络爬虫检测方法，该方法可以有效检测采用低端爬虫技术至高端爬虫技术的网络爬虫，有效提升对网络爬虫的检测能力。为了达到上述目的，本申请提出的技术方案为：第一方面，本申请实施例提供一种网络爬虫检测方法，包括以下步骤：获取目标请求端对受保护网站的当前访问请求产生的当前访问数据；获取所述目标请求端的历史访问数据，并根据所述当前访问数据及所述历史访问数...

【技术保护点】
1.一种网络爬虫检测方法，其特征在于，包括：/n获取目标请求端对受保护网站的当前访问请求产生的当前访问数据；/n获取所述目标请求端的历史访问数据，并根据所述当前访问数据及所述历史访问数据，确定所述目标请求端对所述受保护网站中的页面的访问重复率；/n根据所述访问重复率，确定网站服务端分别执行至少一种访问策略时各自的收益值；/n根据所述至少一种访问策略的收益值，确定所述当前访问请求的爬虫概率；/n根据所述爬虫概率与预设爬虫概率阈值，确定所述当前访问请求是否是网络爬虫发出的访问请求。/n

【技术特征摘要】
1.一种网络爬虫检测方法，其特征在于，包括：
获取目标请求端对受保护网站的当前访问请求产生的当前访问数据；
获取所述目标请求端的历史访问数据，并根据所述当前访问数据及所述历史访问数据，确定所述目标请求端对所述受保护网站中的页面的访问重复率；
根据所述访问重复率，确定网站服务端分别执行至少一种访问策略时各自的收益值；
根据所述至少一种访问策略的收益值，确定所述当前访问请求的爬虫概率；
根据所述爬虫概率与预设爬虫概率阈值，确定所述当前访问请求是否是网络爬虫发出的访问请求。

2.根据权利要求1所述的方法，其特征在于，所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤，包括：
将所述目标请求端对所述受保护网站的所述当前访问请求产生的数据流进行镜像，得到第一镜像数据；
将所述第一镜像数据作为所述当前访问数据获取。

3.根据权利要求1所述的方法，其特征在于，所述获取目标请求端对受保护网站的当前访问请求产生的当前访问数据的步骤，包括：
将对所述受保护网站所在的网络端口的访问请求产生的数据流进行镜像，得到第二镜像数据；
根据所述受保护网站的域名和所述目标请求端的地址，从所述第二镜像数据中确定所述当前访问数据。

4.根据权利要求1所述的方法，其特征在于，所述根据所述当前访问数据及所述历史访问数据，确定所述目标请求端对所述受保护网站中的页面的访问重复率的步骤，包括：
根据所述当前访问数据及所述历史访问数据，确定所述目标请求端对所述受保护网站中的页面的访问总次数；
根据所述当前访问数据及所述历史访问数据，确定所述目标请求端对所述受保护网站的同一页面进行两次以上访问的重复访问次数；
根据所述访问总次数和所述重复访问次数，确定所述访问重复率。

5.根据权利要求1所述的方法，其特征在于，所述至少一种访问策略包括：第一访问策略：当所述目标请求端不是网络爬虫时所述网站服务端通过所述当前访问请求；第二访问策略：当所述目标请求端不是网络爬虫时所述网站服务端禁止所述当前访问请求；第三访问策略：当所述目标请求端是网络爬虫时所述网站服务端通过所述当前访问请求；第四访问策略：以及当所述目标请求端是网络爬虫时所述网站服务端禁止所述当前访问请求；
所述根据所述访问重复率，确定网站服务端分别执行至少一种访问策略时各自的收益值的步骤，包括：
针对所述至少一种访问策略，根据所述访问重复率确定该访问策...

【专利技术属性】
技术研发人员：陈亮，钟嘉琳，
申请(专利权)人：贝壳技术有限公司，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人