一种基于应用场景的网络爬虫检测系统技术方案

技术编号:36118869 阅读:11 留言:0更新日期:2022-12-28 14:23
本发明专利技术公开了一种基于应用场景的网络爬虫检测系统,包括爬虫检测平台,爬虫检测平台包括用户分析单元、人机识别单元、二次验证单元、空间开发单元和现实结合单元,本发明专利技术涉及网络爬虫检测技术领域。该基于应用场景的网络爬虫检测系统,通过将企业网络按照用途划分为不同的应用场景,基于应用场景进行三重恶意爬虫识别,更加全面实现对恶意爬虫筛选的同时,为注册用户开通个人空间,给注册用户的使用提供便利,有效避免了对真实用户的误伤,提高用户体验,并且结合与应用场景相关的管网信息对个人空间进行管控,极大地提高恶意爬虫检测灵活度的同时,有效定位企业网络的异常部分,为企业网络的运营管理提供强有力的辅助。企业网络的运营管理提供强有力的辅助。企业网络的运营管理提供强有力的辅助。

【技术实现步骤摘要】
一种基于应用场景的网络爬虫检测系统


[0001]本专利技术涉及网络爬虫检测
,具体为一种基于应用场景的网络爬虫检测系统。

技术介绍

[0002]网络爬虫也叫网页蜘蛛,网络机器人,是一种用来自动浏览万维网的程序或者脚本,爬虫可以验证超链接和HTML代码,用于网络抓取,网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引,爬虫访问网站的过程会消耗目标系统资源,因此在访问大量页面时,爬虫需要考虑到规划、负载等问题。
[0003]现实企业网络中,为了侵占企业资源、盗取企业核心文件,在企业中往往充斥着大量的恶意爬虫,不仅对企业造成损失,还会对企业网络的正常运营产生影响,常规的企业网络防爬虫设计,往往通过设置IP黑白名单或者UA检查的方式进行恶意爬虫检测,新型的恶意爬虫设计包括设置海量的IP代理池和通过模拟器控制浏览器,常规的检测方式在新型的恶意爬虫设计中,往往无法有效的筛选出恶意爬虫。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了一种基于应用场景的网络爬虫检测系统,解决了常规的检测方式在新型的恶意爬虫设计中,往往无法有效筛选出恶意爬虫的问题。
[0006](二)技术方案
[0007]为实现上述目的,本专利技术提供了如下技术方案:一种基于应用场景的网络爬虫检测系统,包括爬虫检测平台,所述爬虫检测平台包括用户分析单元、人机识别单元、二次验证单元、空间开发单元和现实结合单元,所述用户分析单元用于将企业网络按照用途划分为若干种应用场景,同时记录测试版本中测试用户的浏览情况,生成用户使用规范,所述用户分析单元与人机识别单元对接,所述人机识别单元用于进行人机识别,实现第一重爬虫识别,所述人机识别单元与二次验证单元对接,其中二次验证单元用于对同一应用场景中单日验证的标记次数进行报警阈值设定,在应用场景中的实际标记次数超出报警阈值时,对该注册用户进行异常标记,同时触发人机识别验证,实现第二重爬虫识别,所述二次验证单元与空间开发单元对接,且空间开发单元与人机识别单元对接,所述空间开发单元用于设定单日应用场景重复浏览次数极值,在同一应用场景中单日重复浏览次数达到极值时,向注册用户发起基本的身份信息验证,通过验证后,在企业网络中开拓注册用户的个人空间,用于进行应用场景信息下载,所述空间开发单元与现实结合单元对接,且现实结合单元与二次验证单元对接,所述现实结合单元用于实现企业网络应用场景与注册用户个人空间信息的更新同步,并按照注册用户浏览应用场景的浏览方向,检测与浏览方向相关的官网发布信息,进行相关性分析后,对注册用户以及其开通的个人空间进行爬虫识别,实现第三重爬虫识别。
[0008]通过采用上述技术方案,将企业网络按照用途划分为不同的应用场景,基于应用场景进行三重恶意爬虫识别,更加全面实现对恶意爬虫筛选的同时,为注册用户开通个人空间,实现对应用场景信息进行存储的同时,给注册用户的使用提供便利,有效避免了对真实用户的误伤,提高用户体验,并且结合与应用场景相关的管网信息对个人空间进行管控,极大地提高恶意爬虫检测灵活度的同时,有效定位企业网络的异常部分,为企业网络的运营管理提供强有力的辅助。
[0009]本专利技术进一步设置为:所述用户分析单元包括大数据记录模块、数据分析模块、规范设定模块和设定验证模块;
[0010]所述大数据记录模块用于将企业网络按照用途划分为若干种应用场景,同时记录测试版本中测试用户在企业网络不同应用场景下对数据的浏览情况和测试用户的个人空间在限定时间内的开通占比;
[0011]所述数据分析模块用于对测试版本中测试用户的浏览情况进行分析,对用户使用的相似点进行归纳;
[0012]所述规范设定模块用于以归纳的用户使用相似点为框架,将企业需求完善到框架上,构成企业网络的使用规范,作为用户初始使用规范;
[0013]所述设定验证模块用于将用户初始使用规范投入到测试版本进行测试调整,得到修正后的用户使用规范。
[0014]通过采用上述技术方案,利用企业网络测试版本产生的大数据进行用户使用规范的框架拟定,并且在框架上加入企业需求后进行测试调整,有效保证企业网络的使用切实有效贴合使用人群的同时,实现企业的需要设定,且为恶意爬虫的第三重识别提供对比标准。
[0015]本专利技术进一步设置为:所述人机识别单元包括验证码测试模块、人机识别模块和初始标识模块;
[0016]所述验证码测试模块用于向企业网络的注册用户发送随机验证码,进行人机识别验证,向注册用户发送身份验证信息;
[0017]所述人机识别模块用于接收注册用户对验证码和身份验证信息的反馈,并对验证码和身份验证信息反馈的正确性进行验证;
[0018]所述初始标识模块用于在反馈的验证码出现错误时,对注册用户溯源后,进行爬虫标记,在反馈的身份验证信息出现错误时,对注册用户溯源后,进行爬虫标记。
[0019]通过采用上述技术方案,利用验证码的形式,进行人机识别,从而实现第一重恶意爬虫识别,并且提供身份信息验证的反馈验证,为个人空间的开放和第三重恶意爬虫识别提供辅助,加深三重恶意爬虫识别的协调作用。
[0020]本专利技术进一步设置为:所述二次验证单元包括使用设定模块、阈值设定模块、异常触发模块和爬虫标记模块;
[0021]所述使用设定模块用于设定注册用户身份信息在企业网络应用场景中的单日验证次数,并根据单日验证次数对注册用户进行永久次数标记;
[0022]所述阈值设定模块用于对同一应用场景中单日验证的标记次数进行报警阈值设定,并生成注册用户永久次数标记的月报表;
[0023]所述异常触发模块用于在应用场景中的实际标记次数超出报警阈值时,对该注册
用户进行异常标记,同时触发人机识别验证;
[0024]所述爬虫标记模块用于在人机识别验证出现未通过情况时,对该注册用户进行网络溯源,并进行爬虫标记。
[0025]通过采用上述技术方案,配合人机识别单元进行第二重恶意爬虫识别,并且以月报表的形式向企业提供注册用户的单日验证次数统计,为企业对个人空间的开放进度提供研究资料。
[0026]本专利技术进一步设置为:所述空间开发单元包括重复验证模块、身份信息验证模块和个人空间开拓模块,所述重复验证模块与身份信息验证模块对接,所述身份信息验证模块与个人空间开拓模块对接。
[0027]本专利技术进一步设置为:所述重复验证模块用于对注册用户在同一应用场景进行重复浏览的次数进行记录,并设定单日应用场景重复浏览次数极值;
[0028]所述身份信息验证模块用于在同一应用场景中单日重复浏览次数达到极值时,通过二次验证单元向注册用户发送基本的身份信息验证;
[0029]所述个人空间开拓模块用于在注册用户通过身份信息验证后,开放个人空间,用于进行应用场景信息下载。
[0030]通过采用上述技术方案,对注册用户应用场景的浏览次数极值进行限定,保证经过第一重恶意爬虫筛选的注册用户进行正常浏览的同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于应用场景的网络爬虫检测系统,包括爬虫检测平台(1),其特征在于:所述爬虫检测平台(1)包括用户分析单元(2)、人机识别单元(3)、二次验证单元(4)、空间开发单元(5)和现实结合单元(6),所述用户分析单元(2)用于将企业网络按照用途划分为若干种应用场景,同时记录测试版本中测试用户的浏览情况,生成用户使用规范,所述用户分析单元(2)与人机识别单元(3)对接,所述人机识别单元(3)用于进行人机识别,所述人机识别单元(3)与二次验证单元(4)对接,其中二次验证单元(4)用于对同一应用场景中单日验证的标记次数进行报警阈值设定,在应用场景中的实际标记次数超出报警阈值时,对该注册用户进行异常标记,同时触发人机识别验证,所述二次验证单元(4)与空间开发单元(5)对接,且空间开发单元(5)与人机识别单元(3)对接,所述空间开发单元(5)用于设定单日应用场景重复浏览次数极值,在同一应用场景中单日重复浏览次数达到极值时,向注册用户发起基本的身份信息验证,通过验证后,在企业网络中开拓注册用户的个人空间,用于进行应用场景信息下载,所述空间开发单元(5)与现实结合单元(6)对接,且现实结合单元(6)与二次验证单元(4)对接,所述现实结合单元(6)用于实现企业网络应用场景与注册用户个人空间信息的更新同步,并按照注册用户浏览应用场景的浏览方向,检测与浏览方向相关的官网发布信息,进行相关性分析后,对注册用户以及其开通的个人空间进行爬虫识别。2.根据权利要求1所述的一种基于应用场景的网络爬虫检测系统,其特征在于:所述用户分析单元(2)包括大数据记录模块(7)、数据分析模块(8)、规范设定模块(9)和设定验证模块(10);所述大数据记录模块(7)用于将企业网络按照用途划分为若干种应用场景,同时记录测试版本中测试用户在企业网络不同应用场景下对数据的浏览情况和测试用户的个人空间在限定时间内的开通占比;所述数据分析模块(8)用于对测试版本中测试用户的浏览情况进行分析,对用户使用的相似点进行归纳;所述规范设定模块(9)用于以归纳的用户使用相似点为框架,将企业需求完善到框架上,构成企业网络的使用规范,作为用户初始使用规范;所述设定验证模块(10)用于将用户初始使用规范投入到测试版本进行测试调整,得到修正后的用户使用规范。3.根据权利要求1所述的一种基于应用场景的网络爬虫检测系统,其特征在于:所述人机识别单元(3)包括验证码测试模块(11)、人机识别模块(12)和初始标识模块(13);所述验证码测试模块(11)用于向企业网络的注册用户发送随机验证码,进行人机识别验证,向注册用户发送身份验证信息;所述人机识别模块(12)用于接收注册用户对验证码和身份验证信息的反馈,并对验证码和身份验证信息反馈的正确性进行验证;所述初始标识模块(13)用于在反馈的验证码和身份验证信息出现错误时,对注册用户溯源后,进行爬虫标记。4.根...

【专利技术属性】
技术研发人员:谢强陈晨
申请(专利权)人:武汉极意网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1