【技术实现步骤摘要】
一种多层威胁拦截的智能反爬虫系统及方法
本专利技术涉及互联网安全
,尤其涉及一种多层威胁拦截的智能反爬虫系统及方法。
技术介绍
爬虫最早源于搜索引擎,是一种按照一定的规则自动从互联网上抓取信息的程序,也被成为网页蜘蛛、网络机器人等,如今数据资源越来越珍贵,利用爬虫技术爬取有价值的数据成为很多公司弥补自身先天数据短板、提高自身估值的不二选择。爬虫按照功能可以分为网络爬虫和接口爬虫,按照授权情况则可以分为合法爬虫和恶意爬虫。为防止数据泄露,反爬虫技术应运而生。目前,反爬虫方案多集中在User-Agent和IP的拦截中,依靠频率和黑白名单来拦截爬虫,这种对抗方式有一定的成效,但是对于黑产来说,只需要掌握大量的IP代理资源和不断的轮换User-Agent即可轻松绕过。而且,目前IP的成本很低,这就导致一大批的网站饱受爬虫的危害,还有些网站甚至没有基本的反爬虫方案。总的来说,目前的反爬虫对抗方式太过单一,存在维护困难,导致需要不断更新IP名单,维护难度较大、误封率高,且判别因子较少、不够灵活。专利 ...
【技术保护点】
1.一种多层威胁拦截的智能反爬虫系统,其特征在于,包括信息采集模块、风险判别模块、以及风险处置模块,其中,所述信息采集模块采集用户的浏览器运行环境信息以及点击轨迹信息;所述风险判别模块根据所述信息获取模块采集到的信息对用户浏览器环境、网络信息、IP信息、以及用户行为进行综合判断,判定访问用户为恶意用户、高危用户或者正常用户;所述风险处置模块根据风险判别模块的判别结果,在判断用户为恶意用户时,对当前的访问用户进行拦截,在判断用户为高危用户时,对当前的访问用户推送验证码。/n
【技术特征摘要】 【专利技术属性】
1.一种多层威胁拦截的智能反爬虫系统,其特征在于,包括信息采集模块、风险判别模块、以及风险处置模块,其中,所述信息采集模块采集用户的浏览器运行环境信息以及点击轨迹信息;所述风险判别模块根据所述信息获取模块采集到的信息对用户浏览器环境、网络信息、IP信息、以及用户行为进行综合判断,判定访问用户为恶意用户、高危用户或者正常用户;所述风险处置模块根据风险判别模块的判别结果,在判断用户为恶意用户时,对当前的访问用户进行拦截,在判断用户为高危用户时,对当前的访问用户推送验证码。
2.根据权利要求1所述的多层威胁拦截的智能反爬虫系统,其特征在于,所述浏览器运行环境信息包括操作系统类型、运行的硬件信息、显卡信息、浏览器插件列表、浏览器窗口大小、图片加载信息、IP信息、以及用户鼠标轨迹信息。
3.根据权利要求1或2所述的多层威胁拦截的智能反爬虫系统,其特征在于,所述风险判别模块还包括浏览器环境判别模块、网络判别模块、IP判别模块、以及智能行为判别模块,其中:
所述浏览器环境判别模块根据浏览器运行环境信息判断用户运行的浏览器是否为正常浏览器;所述网络判别模块根据网络信息判断用户运行的浏览器是否经过篡改;所述IP判别模块根据用户的IP信息判断用户IP的风险性;所述智能行为判别模块根据用户的点击轨迹信息判断用户行为是否是机器模拟行为。
4.根据权利要求3所述的多层威胁拦截的智能反爬虫系统,其特征在于,所述网络信息指用户在网页服务中使用的http协议信息,主要包括协议头部信息;所述网络判别模块通过收集不同浏览器采用的协议头部信息,建立完整的样本库,从而根据所述样本库对用户运行的浏览器是否被篡改进行判定。
5.根据权利要求3所述的多层威胁拦截的智能反爬虫系统,其特征在于,所述IP判别模块通过记录用户的访问行为,建立IP风险库,所述IP风险库用于追踪用户访问的历史行为,并根据IP访问的频次信息确定IP的风险程度;
其中,对于新的访问用户,所述IP风险库用于根据用户的IP确定IP的属性信息,进一步判断用户IP的风险性;所述IP的属性信息包括真人度、所属机构、地理位置、IP类型。
技术研发人员:陈博,陈国庆,谢强,
申请(专利权)人:武汉极意网络科技有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。