一种爬虫行为识别方法和装置制造方法及图纸

技术编号：18449188 阅读：79 留言：0更新日期：2018-07-14 12:06

本申请提出一种爬虫行为识别方法和装置，包括：校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。通过校验浏览器窗口大小进行客户端识别，并通过二次校验进行授权认证，防止绕开验证进行信息的爬取行为。

全部详细技术资料下载

【技术实现步骤摘要】
一种爬虫行为识别方法和装置
本专利技术涉及防爬领域，具体涉及一种爬虫行为识别方法和装置。
技术介绍
网络爬虫是一种自动获取网页内容的程序。在网页产品中，经常会出现有网络爬虫抓取页面内容而对网页的正常访问流量造成影响的问题。因此，需要对网络爬虫请求进行识别，以方便对网络爬虫进行过滤和屏蔽。目前识别网络爬虫的方法，一般从三个角度出发：a.限制网络请求的频率，锁定发起请求的IP地址；一般程序发出的请求频率远高于人正常的网页浏览频率；nginx，waf,防火墙等防御手段基于此；b.判断请求中是否包含正常浏览网页的行为特征；一般可以通过请求中的参数判断是否是人的正常浏览行为；比如对header字段的校验，隐藏域的使用；c.判断请求中是否包含正常浏览网页的行为所不应该包含的特征；比如蜜罐，隐藏域的一些使用。针对相关技术的三种方式，主要有以下三个缺陷：a.限制ip请求频率的方式一般误判率比较高，此外，这种防爬手段通过代理方式可以较为轻松的绕过；b.一些基于浏览器内核的工具可以模拟浏览器的部分行为，构造请求方面和真的浏览器相似度极高；c.一些精细化的爬虫可以伪装浏览器的各项参数，也可以扫描隐藏域，从而绕开蜜罐等防爬方式。相关技术根本的目的在于区分人和机器的行为；但无论多么精巧的防爬手段，都只能提高爬虫的技术门槛，并不能100％的杜绝爬虫行为。
技术实现思路
本专利技术提供一种爬虫行为识别方法和装置，防止相关技术中绕开验证进行信息爬取的行为。为了实现上述专利技术目的，本专利技术采取的技术方案如下：一种爬虫行为识别方法，包括：校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件...

【技术保护点】
1.一种爬虫行为识别方法，其特征在于，包括：校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。

【技术特征摘要】
1.一种爬虫行为识别方法，其特征在于，包括：校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；跳转到目标页面后，验证所述目标页面的登录信息和校验时间信息，当所述登录信息和所述校验时间信息都验证通过时，授权本次请求；当所述登录信息或所述校验时间信息至少之一验证不通过时，认定本次请求为爬虫行为。2.如权利要求1所述的方法，其特征在于：所述方法之前还包括：对请求浏览的目标页面进行登录验证，当登录验证成功时，则允许用户浏览目标页面，当登录验证不成功时，跳转至登录页面。3.如权利要求1所述的方法，其特征在于：校验本次请求浏览目标页面的浏览器的窗口信息是否满足预设条件包括：校验请求浏览的目标页面的浏览器窗口的长度信息和宽度是否大于或者等于预设窗口大小，并验证请求浏览的目标页面的浏览器窗口的位置信息是否处于预设范围。4.如权利要求1所述的方法，其特征在于：验证所述目标页面的登录信息和校验时间信息包括：校验用户输入的用户名和密码，并校验服务器发送给浏览器请求的时间和浏览器向服务器回复请求的时间差是否满足预设阈值。5.如权利要求1所述的方法，其特征在于：验证所述目标页面的登录信息和校验时间信息之后还包括：校验所述目标页面对应的浏览器信息，所述浏览器信息包括浏览器的类型和浏览器内核版本，当所述浏览器信息验证通过时，授权本次请求；当所述浏览器信息验证不通过时，认定本次请求为爬虫行为。6.一种爬虫行为识别装置，其特征在于：包括：窗口校验模块，设置为校验请求浏览目标页面的浏览器的窗口信息是否满足预设条件，当所述窗口信息满足预设条件时，则校验成功，允许用户浏览目标页面，当所述窗口信息不满足预设条件时，则校验失败，认定本次请求为爬虫行为；浏览器校验模块，设置为验证所述目标页面...

【专利技术属性】
技术研发人员：张毅，李晓晴，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人