This application provides an anti-crawler method and system based on user's access behavior. The method includes: obtaining the historical access record of the target user for the target web page, which is the user who currently issues the access request for the target web page; determining the first crawl of the target user based on the preset first rule according to the corresponding historical access record and/or access request of the target user. If the suspicious level of the first crawler satisfies the preset condition, the second crawler suspicious level of the target user is determined based on the preset second rule according to the historical access record of the target user. The higher level of the first and second crawler suspicious level is selected as the current target crawler suspicious level of the target user. This application can effectively ensure the normal user access behavior, and can effectively improve the accuracy of network crawler identification, improve the efficiency of network crawler identification, and then effectively and accurately block network crawler crawling related information.
【技术实现步骤摘要】
基于用户访问行为的反爬虫方法及系统
本申请涉及信息安全
,具体涉及一种基于用户访问行为的反爬虫方法及系统。
技术介绍
随着互联网及移动互联网的快速发展,无论是互联网公司还是各传统行业都通过网络提供了海量且有价值的数据,这些数据以网站或手机APP服务的形式,公布于互联网上,方便全世界每一个人访问。因此,如何确保在网络环境中公开数据的独有性,不被竞争对手及别有用心的人通过网络爬虫获取是一个重要的研究课题。现有的反爬虫技术中,一种主流的实现方法是通过为单一ip设置访问次数限制。但是这种方式存在如下缺陷:如果访问次数限制设置过高,可能无法达到防止网络爬虫的目的,如果访问次数限制设置过低,很可能影响正常的用户访问。另一种流行的方式则是在服务器端对一定信息进行加密,客户端上通过JavaScript解密和计算,重新上送服务器端,服务器端校验此值与预期是否相符,来判断客户端是否为爬虫。但是客户端上的JavaScript代码是公开的,极易被人获取和破解,爬虫能够通过计算或内置浏览器引擎来绕过此方式。另外,使用验证码进行人机交互来确认对方的身份也是一种反爬虫的惯用手段。然而频繁 ...
【技术保护点】
1.一种基于用户访问行为的反爬虫方法,其特征在于,包括:获取目标用户针对目标网页的历史访问记录,其中,该目标用户为当前发出针对所述目标网页的访问请求的用户;根据所述目标用户对应的历史访问记录和/或访问请求,基于预设的第一规则确定所述目标用户的第一爬虫可疑等级;若所述第一爬虫可疑等级满足预设条件,则根据所述目标用户对应的历史访问记录,基于预设的第二规则确定所述目标用户的第二爬虫可疑等级,其中,所述第一爬虫可疑等级和第二爬虫可疑等级均为预设的多个爬虫等级中的一个;在所述第一爬虫可疑等级和第二爬虫可疑等级中选取较高级别的爬虫等级作为该目标用户当前的目标爬虫可疑等级。
【技术特征摘要】
1.一种基于用户访问行为的反爬虫方法,其特征在于,包括:获取目标用户针对目标网页的历史访问记录,其中,该目标用户为当前发出针对所述目标网页的访问请求的用户;根据所述目标用户对应的历史访问记录和/或访问请求,基于预设的第一规则确定所述目标用户的第一爬虫可疑等级;若所述第一爬虫可疑等级满足预设条件,则根据所述目标用户对应的历史访问记录,基于预设的第二规则确定所述目标用户的第二爬虫可疑等级,其中,所述第一爬虫可疑等级和第二爬虫可疑等级均为预设的多个爬虫等级中的一个;在所述第一爬虫可疑等级和第二爬虫可疑等级中选取较高级别的爬虫等级作为该目标用户当前的目标爬虫可疑等级。2.根据权利要求1所述的基于用户访问行为的反爬虫方法,其特征在于,在所述基于预设的第一规则确定所述目标用户的第一爬虫可疑等级之后,还包括:若所述目标用户的第一爬虫可疑等级为所述爬虫等级中的最高级,则直接确定当前目标用户的目标爬虫可疑等级为该爬虫等级中的最高级;相对应的,所述若所述第一爬虫可疑等级满足预设条件,则根据所述目标用户对应的历史访问记录,基于预设的第二规则确定所述目标用户的第二爬虫可疑等级,包括:若所述目标用户的第一爬虫可疑等级不为所述爬虫等级中的最高级,则根据所述目标用户对应的历史访问记录,基于预设的第二规则确定所述目标用户的第二爬虫可疑等级。3.根据权利要求1所述的基于用户访问行为的反爬虫方法,其特征在于,所述获取目标用户针对目标网页的历史访问记录,包括:接收目标用户发出的针对所述目标网页的访问请求,其中,该访问请求中包含有所述目标用户的用户唯一标识;根据所述目标用户的用户唯一标识在预设的历史数据库中获取该目标用户针对目标网页的历史访问记录,其中,所述历史数据库用于存储用户唯一标识与用户针对目标网页的历史访问记录之间的一对多关系。4.根据权利要求3所述的基于用户访问行为的反爬虫方法,其特征在于,所述根据所述目标用户对应的历史访问记录和/或访问请求,基于预设的第一规则确定所述目标用户的第一爬虫可疑等级,包括:在预存储的爬虫用户黑名单中查找其中是否包含有所述目标用户对应的用户唯一标识,并根据查找结果确定所述目标用户的第一爬虫可疑等级;其中,所述爬虫用户黑名单用于存储各个所述用户对应的用户唯一标识与所述爬虫等级之间的一一对应关系。5.根据权利要求1所述的基于用户访问行为的反爬虫方法,其特征在于,所述历史访问记录中包含有目标用户在预设时间内访问所述目标网页的次数;所述根据所述目标用户对应的历史访问记录和/或访问请求,基于预设的第一规则确定所述目标用户的第一爬虫可疑等级,包括:在多个预设的访问次数区间中,确定所述目标用户在预设时间内访问所述目标网页的次数所属的目标访问次数区间,并将目标访问次数区间对应的所述爬虫等级作为所述目标网页对应的第一爬虫可疑等级;其中,所述访问次数区间与所述爬虫等级之间为一对一或多对一的关系。6.根据权利要求1所述的基于用户访问行为的反爬虫方法,其特征在于,所述访问请求中包含有目标用户的用户代理标识;所述根据所述目标用户对应的历史访问记录和/或访问请求,基于预设的第一规则确定所述目标用户的第一爬虫可疑等级,包括:识别所述目标用户的用户代理标识是否为预存的浏览器标识中一个,并根据识别结果确定所述目标网页对应的第一爬虫可疑等级。7.根据权利要求1所述的基于用户访问行为的反爬虫方法,其特征在于,所述历史访问记录中包含有目标用户针对目标网页的前一访问网页的标识,其中,该前一访问网页与所述目标网页属于同一服务提供方;所述根据所述目标用户对应的历史访问记录,基于预设的第二规则确定所述目标用户的第二爬虫可疑等级,包括:根据预设的各个网页的标识与各个高概率标识之间的对应关系,确定所述前一访问网页是否对应有的高概率标识,其中,该高概率标识有多种等级;基于所述高概率标识的等级确定所述目标用户的第二爬虫可疑等级。8.根据权利要求7所述的基于用户访问行为的反爬虫方法,其特征在于,所述历史访问记录中还包含有目标用户在预设时段内的多个历史访问网页的标识和访问次数,其中,所述历史访问网页与所述目标网页属于同一服务提供方;所述根据所述目标用户对应的历史访问记录,基于预设的第二规则确定所述目标用户的第二爬虫可疑等级,包括:根据所述目标用户在预设时段内的多个历史访问网页的标识和访问次数,基于预设的各个网页的标识与各个高概率标识之间的对应关系,确定各个等级的高概率标识分别对应的历史访问网页的访问次数;基于各个等级的高概率标识分别对应的历史访问网页的访问次数,确定所述目标用户的第二爬虫可疑等级。9.根据权利要求7或8所述的基于用户访问行为的反爬虫方法,其特征在于,在所述基于预设的第二规则确定所述目标用户的第二爬虫可疑等级之前,还包括:获取不存在爬虫嫌疑的多个用户的历史访问数据,其中,所述历史访问数据中包含有至少一对所述目标网页与对应的前一访问网页;根据所述历史访问数据,确定各个所述目标网页对应的前一访问网页的访问概率;基于各个所述访问概率所属的数值区间,确定各个所述目标网页对应的前一访问网页对应的高概率标识。10.根据权利要求1或2所述的基于用户访问行为的反爬虫方法,其特征在于,还包括:将所述目标用户的目标爬虫可疑等级存储至爬虫用户黑名单;其中,所述爬虫用户黑名单用于存储各个所述用户对应的唯一标识与所述爬虫等级之间的一一对应关系。11.根据权利要求3所述的基于用户访问行为的反爬虫方法,其特征在于,还包括:将所述目标用户的目标爬虫可疑等级发送至所述目标用户针对所述目标网页的访问请求的发送方,使得该发送方根据目标用户的目标爬虫可疑等级,确定返回至所述目标用户是否为所述目标网页。12.一种基于用户访问行为的反爬虫系统,其特征在于,包括:数据接收输...
【专利技术属性】
技术研发人员:黄龙,孙刚,李江涛,边策,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。