【技术实现步骤摘要】
一种基于应用场景的网络爬虫检测系统
[0001]本专利技术涉及网络爬虫检测
,具体为一种基于应用场景的网络爬虫检测系统。
技术介绍
[0002]网络爬虫也叫网页蜘蛛,网络机器人,是一种用来自动浏览万维网的程序或者脚本,爬虫可以验证超链接和HTML代码,用于网络抓取,网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引,爬虫访问网站的过程会消耗目标系统资源,因此在访问大量页面时,爬虫需要考虑到规划、负载等问题。
[0003]现实企业网络中,为了侵占企业资源、盗取企业核心文件,在企业中往往充斥着大量的恶意爬虫,不仅对企业造成损失,还会对企业网络的正常运营产生影响,常规的企业网络防爬虫设计,往往通过设置IP黑白名单或者UA检查的方式进行恶意爬虫检测,新型的恶意爬虫设计包括设置海量的IP代理池和通过模拟器控制浏览器,常规的检测方式在新型的恶意爬虫设计中,往往无法有效的筛选出恶意爬虫。
技术实现思路
[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了 ...
【技术保护点】
【技术特征摘要】
1.一种基于应用场景的网络爬虫检测系统,包括爬虫检测平台(1),其特征在于:所述爬虫检测平台(1)包括用户分析单元(2)、人机识别单元(3)、二次验证单元(4)、空间开发单元(5)和现实结合单元(6),所述用户分析单元(2)用于将企业网络按照用途划分为若干种应用场景,同时记录测试版本中测试用户的浏览情况,生成用户使用规范,所述用户分析单元(2)与人机识别单元(3)对接,所述人机识别单元(3)用于进行人机识别,所述人机识别单元(3)与二次验证单元(4)对接,其中二次验证单元(4)用于对同一应用场景中单日验证的标记次数进行报警阈值设定,在应用场景中的实际标记次数超出报警阈值时,对该注册用户进行异常标记,同时触发人机识别验证,所述二次验证单元(4)与空间开发单元(5)对接,且空间开发单元(5)与人机识别单元(3)对接,所述空间开发单元(5)用于设定单日应用场景重复浏览次数极值,在同一应用场景中单日重复浏览次数达到极值时,向注册用户发起基本的身份信息验证,通过验证后,在企业网络中开拓注册用户的个人空间,用于进行应用场景信息下载,所述空间开发单元(5)与现实结合单元(6)对接,且现实结合单元(6)与二次验证单元(4)对接,所述现实结合单元(6)用于实现企业网络应用场景与注册用户个人空间信息的更新同步,并按照注册用户浏览应用场景的浏览方向,检测与浏览方向相关的官网发布信息,进行相关性分析后,对注册用户以及其开通的个人空间进行爬虫识别。2.根据权利要求1所述的一种基于应用场景的网络爬虫检测系统,其特征在于:所述用户分析单元(2)包括大数据记录模块(7)、数据分析模块(8)、规范设定模块(9)和设定验证模块(10);所述大数据记录模块(7)用于将企业网络按照用途划分为若干种应用场景,同时记录测试版本中测试用户在企业网络不同应用场景下对数据的浏览情况和测试用户的个人空间在限定时间内的开通占比;所述数据分析模块(8)用于对测试版本中测试用户的浏览情况进行分析,对用户使用的相似点进行归纳;所述规范设定模块(9)用于以归纳的用户使用相似点为框架,将企业需求完善到框架上,构成企业网络的使用规范,作为用户初始使用规范;所述设定验证模块(10)用于将用户初始使用规范投入到测试版本进行测试调整,得到修正后的用户使用规范。3.根据权利要求1所述的一种基于应用场景的网络爬虫检测系统,其特征在于:所述人机识别单元(3)包括验证码测试模块(11)、人机识别模块(12)和初始标识模块(13);所述验证码测试模块(11)用于向企业网络的注册用户发送随机验证码,进行人机识别验证,向注册用户发送身份验证信息;所述人机识别模块(12)用于接收注册用户对验证码和身份验证信息的反馈,并对验证码和身份验证信息反馈的正确性进行验证;所述初始标识模块(13)用于在反馈的验证码和身份验证信息出现错误时,对注册用户溯源后,进行爬虫标记。4.根...
【专利技术属性】
技术研发人员:谢强,陈晨,
申请(专利权)人:武汉极意网络科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。