网络爬虫识别方法、系统、装置及计算机存储介质制造方法及图纸

技术编号:32138768 阅读:19 留言:0更新日期:2022-02-08 14:31
一种网络爬虫识别方法、系统、装置及计算机存储介质,该方法包括:获取植入至客户端的前端系统回传的鼠标移动数据,所述鼠标移动数据包括若干个采样点分别对应的鼠标采样信息;按照预设的异常检测规则对所述若干个采样点分别对应的鼠标采样信息进行异常检测;在检测到所述鼠标移动数据存在异常时,将所述客户端识别为网络爬虫;拦截被识别为网络爬虫的客户端发送的访问请求。实施本发明专利技术实施例,能够通过鼠标移动数据对网络爬虫进行识别,即使网络爬虫试图通过伪造浏览器UA或者更换IP地址的方式进行伪装,也可以准确识别。也可以准确识别。也可以准确识别。

【技术实现步骤摘要】
网络爬虫识别方法、系统、装置及计算机存储介质


[0001]本专利技术涉及网络安全
,具体涉及一种网络爬虫识别方法、系统、服务器及计算机存储介质。

技术介绍

[0002]网络爬虫,指按照一定的规则自动地抓取网站信息的程序或者脚本。网络爬虫在一定程度上会对网站造成负担,容易导致服务器崩溃,也容易导致数据泄露。目前,已有基于用户代理(User Agent,UA)匹配或者基于网际互连协议(Internet Protocol,IP)地址识别的网络爬虫识别方法。但是,基于UA匹配的方法可以通过伪造浏览器UA的方式破解,基于IP地址识别的方法可以通过更换IP地址的方式破解。因此,需要开发一种新的网络爬虫识别方法。

技术实现思路

[0003]本专利技术实施例公开了一种网络爬虫识别方法、系统、服务器及计算机存储介质,可以准确识别网络爬虫。
[0004]本专利技术实施例公开一种网络爬虫识别方法,所述方法包括:获取植入至客户端的前端系统回传的鼠标移动数据,所述鼠标移动数据包括若干个采样点分别对应的鼠标采样信息;按照预设的异常检测规则对所述若干个采样点分别对应的鼠标采样信息进行异常检测;在检测到所述鼠标移动数据存在异常时,将所述客户端识别为网络爬虫;拦截被识别为网络爬虫的客户端发送的访问请求。
[0005]本申请实施例公开一种网络爬虫识别系统,其特征在于,包括:前端系统和后端系统;所述前端系统部署于客户端,所述后端系统部署于识别装置;所述前端系统,用于获取鼠标移动数据;所述鼠标移动数据包括若干个采样点分别对应的鼠标采样信息;所述后端系统,用于按照预设的异常检测规则对所述若干个采样点分别对应的鼠标采样信息进行异常检测;以及,在检测出所述鼠标移动数据异常时,将所述客户端识别为网络爬虫;以及,拦截被识别为网络爬虫的客户端发送的访问请求。
[0006]本申请实施例公开一种爬虫识别装置,包括存储器及处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现本申请实施例公开的网络爬虫识别方法。
[0007]本申请实施例公开一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本申请实施例公开的网络爬虫识别方法。
[0008]与现有技术相比,本专利技术实施例具有以下有益效果:
[0009]在本申请实施例中,可以通过植入至客户端的前端系统获取鼠标移动数据,并判断鼠标移动数据是否存在异常;在检测到鼠标移动数据存在异常时,将客户端识别为网络爬虫,并对被识别为网络爬虫的客户端发送的访问请求进行拦截,从而可以减轻网络爬虫对网站造成的负担。在本申请实施例中,即使网络爬虫试图通过伪造浏览器UA或者更换IP
地址的方式进行伪装,也可以通过鼠标移动数据准确地对网络爬虫进行识别。
附图说明
[0010]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1是本申请实施例公开的一种网络爬虫识别系统的结构示意图;
[0012]图2A本申请实施例公开的一种网络爬虫识别系统在网络服务器侧部署的示例图;
[0013]图2B本申请实施例公开的一种网络爬虫识别系统进行本地化部署的示例图;
[0014]图2C本申请实施例公开的一种网络爬虫识别系统进行云端化部署的示例图;
[0015]图3是本申请实施例公开的一种网络爬虫识别方法的流程示意图;
[0016]图4是本申请实施例公开的一种按照鼠标移动速度异常检测规则对鼠标移动数据进行异常检测的流程示意图;
[0017]图5是本申请实施例公开的一种按照鼠标移动加速度异常检测规则对鼠标移动数据进行异常检测的流程示意图;
[0018]图6是本申请实施例公开的一种按照鼠标移动轨迹异常检测规则对鼠标移动数据进行异常检测的流程示意图;
[0019]图7是本申请实施例公开的一种鼠标移动方向变化的示例图;
[0020]图8是本申请实施例公开的另一种网络爬虫识别系统的结构示意图;
[0021]图9是本申请实施例公开的一种电子设备的结构示意图。
具体实施方式
[0022]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0023]需要说明的是,本专利技术实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0024]本专利技术实施例公开了一种网络爬虫识别方法、系统、服务器及计算机存储介质,可以准确识别网络爬虫。以下分别进行详细说明。
[0025]请一并参阅图1,图1是本申请实施例公开的一种网络爬虫识别系统的结构示意图。如图1所示,该网络爬虫识别系统至少可以包括:前端系统101和后端系统102。其中,
[0026]前端系统101,可以用于获取客户端的鼠标移动数据,并将鼠标移动数据回传至后端系统102。后端系统102可以根据获取到的鼠标移动数据进行异常检测,以识别客户端是否为网络爬虫。
[0027]此外,在本申请实施例中,网络爬虫识别系统可以包括但不限于以下三种部署方
式:网络服务器侧部署、本地化部署或者云端化部署。
[0028]请一并参阅图2A,图2A本申请实施例公开的一种网络爬虫识别系统在网络服务器侧部署的示例图。如图2A所示,当网络爬虫识别系统在网络服务器侧部署时,可以将后端系统102设于网络服务器中,进而后端系统102可以向客户端的浏览器植入前端系统101。其中,将网络爬虫识别系统在网络服务器侧部署可以节省客户端的本地内存空间。
[0029]请一并参阅图2B,图2B本申请实施例公开的一种网络爬虫识别系统进行本地化部署的示例图。如图2B所示,当将网络爬虫识别系统进行本地化部署时,可以将后端系统102设于本地网络防护系统,进而后端系统102可以向客户端的浏览器植入前端系统101。可选的,网络爬虫识别系统在本地网络防护系统的部署方式可以包括但不限于:本地硬件化部署(即通过在本地服务器设置相对应的硬件,以实现识别装置的功能)和本地虚拟化部署(即通过虚拟化技术将识别装置部署于本地服务器,虚拟化技术可以让一个中央处理器工作起来像多个中央处理器在并行运行,从而使得在一部电脑内同时运行多个操作系统的技术);此外,网络爬虫识别系统可以作为单独的安全设备进行部署,也可以与网站应用级入侵防御系统(Web Appli本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫识别方法,其特征在于,所述方法包括:获取植入至客户端的前端系统回传的鼠标移动数据,所述鼠标移动数据包括若干个采样点分别对应的鼠标采样信息;按照预设的异常检测规则对所述若干个采样点分别对应的鼠标采样信息进行异常检测;在检测到所述鼠标移动数据存在异常时,将所述客户端识别为网络爬虫;拦截被识别为网络爬虫的客户端发送的访问请求。2.根据权利要求根据权利要求1所述的方法,其特征在于,所述异常检测规则包括:鼠标移动速度异常检测规则;所述鼠标采样信息包括鼠标位置及采样时刻;所述按照预设的异常检测规则对所述若干个采样点分别对应的鼠标采样信息进行异常检测,包括:根据两个连续的采样点分别对应的鼠标位置和分别对应的采样时刻,确定鼠标在每个采样区间中的移动速度;每两个连续的采样点构成一个采样区间;若鼠标在某一采样区间中的移动速度大于预设的速度阈值,则检测到所述鼠标移动数据存在异常;和/或,若根据鼠标在相邻的采样区间中的移动速度确定出鼠标移动速度异常,则检测到所述鼠标移动数据存在异常。3.根据权利要求2所述的方法,其特征在于,所述根据鼠标在相邻的采样区间中的移动速度确定出鼠标移动速度异常的情况包括以下一种或多种:鼠标在连续N个采样区间中的第一方向速度分量相同,N为大于等于2的正整数;鼠标在连续K个采样区间中的第二方向速度分量相同,K为大于等于2的正整数,所述第一方向和所述第二方向为相互垂直的方向;鼠标在第一个采样区间的移动速度大于等于鼠标在第二个采样区间的移动速度;鼠标在倒数第一个采样区间的移动速度大于等于鼠标在倒数第二个采样区间的移动速度。4.根据权利要求1所述的方法,其特征在于,所述异常检测规则包括:鼠标移动加速度异常检测规则;所述鼠标采样信息包括鼠标位置及采样时刻;所述按照预设的异常检测规则对所述若干个采样点分别对应的鼠标采样信息进行异常检测,包括:根据所述鼠标移动数据包括的若干个采样点分别对应的鼠标位置和分别对应的采样时刻确定鼠标在采样区间中的移动速度;每两个连续的采样点构成一个采样区间;根据鼠标分别在两个连续的采样区间中的移动速度确定每个区段对应的移动加速度;每两个连续的采样区间构成一个区段;若根据某一区段对应的移动加速度确定出鼠标移动加速度异常,则检测到所述鼠标移动数据存在异常;和/或,若存在两个连续的区段分别对应的移动加速度之间的变化值超过预设的移动加速度变化阈值,则检测到所述鼠标移动数据存在异常。5.根据权利要求4所述的方法,其特征在于,所述根据某一区段对应的移动加速度确定出鼠标移动加速度异常的情况包括以下一种或多种:存在某一区段对应的第一方向加速度分量超过预设的第一加速度阈值;
...

【专利技术属性】
技术研发人员:肖军欧怀谷王枭卿张盼
申请(专利权)人:云盾智慧安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1