一种爬虫行为的识别方法及防范系统技术方案

技术编号:33086342 阅读:61 留言:0更新日期:2022-04-15 10:50
本发明专利技术公开一种爬虫行为的识别方法及防范系统,包括:S1:接收用户的访问请求;S2:存储连接地址、访问对象和状态码;S3:判断连接地址是否为具有爬虫行为的连接地址;是,转向S6;否,转向S4;S4:判断访问请求与爬虫行为的相似度;相似度在第一范围,接受访问请求;相似度在第二范围,转向S5;相似度在第三范围,转向S6;S5:验证码校验;是,接受访问请求;否,转向S6;S6:将连接地址存入黑名单。本发明专利技术的有益效果在于:分别对用户的累计访问请求和实时访问请求进行分析,提高了对爬虫行为识别的准确度,实现了较好的识别效果。并通过合理设置相似度范围及验证码校验机制来实现对正常访问请求和爬虫行为的有效区分,提高用户体验。提高用户体验。提高用户体验。

【技术实现步骤摘要】
一种爬虫行为的识别方法及防范系统


[0001]本专利技术涉及互联网安全
,具体涉及一种爬虫行为的识别方法及防范系统。

技术介绍

[0002]爬虫软件,指某一类特定的计算机程序,其在一定的预设规则下向特定的网页、接口等获取特定的数据。爬虫软件在许多领域都有着广泛的应用,其能够实现自动化地从网站获取新的数据,并加以储存以方便访问、分析、使用。通过爬虫软件获取的数据能够在整理、处理、筛选后作为大数据分析的依据,从而对特定的对象进行有效的分析,这在互联网企业中已是极为常见的分析手段。在药品电商产业中,爬虫软件作为一种常见的分析工具,往往被用于采集同业的产品类目、商品名称、价格、折扣等数据。对上述数据进行分析、处理后,则可以用于对自身的商品定价的指导。比如,在某家药品电商平台中,其每天的访问请求数量近7000万,其中包括来自数种具有不同功能的爬虫软件发出的访问请求。该类爬虫软件占用了服务器资源、网络带宽,影响了用户体验,并且对药品电商的经营行为造成了不良影响。因此,针对爬虫软件设计相应的识别与防范系统便具有其必要性。
[0003]现有技术中,往往是通过对单个IP地址在特定时间间隔内的请求次数进行限制,但是对于具有随机IP地址的爬虫软件并不能起到很好的效果。同时在一定程度上也会影响部分具有大量访问需求的用户的使用,比如采购量较大的经销商、零售终端等。

技术实现思路

[0004]针对现有技术中存在的上述问题,现提供一种爬虫行为的识别方法及防范系统。
[0005]具体技术方案如下:
[0006]一种爬虫行为的识别方法,包括:
[0007]步骤S1:接收用户的访问请求,并记录连接地址、访问对象和状态码;
[0008]步骤S2:将所述连接地址、所述访问对象和所述状态码存入一日志模块;
[0009]步骤S3:采用所述日志模块对所述连接地址的所述访问对象与所述状态码进行分析,并根据分析结果判断所述连接地址是否为具有爬虫行为的连接地址;
[0010]若是,转向步骤S6;
[0011]若否,转向步骤S4;
[0012]步骤S4:采用一分析模块判断所述访问请求与爬虫行为的相似度;
[0013]若相似度在一预设的第一范围,接受所述访问请求并向所述用户返回请求的所述访问对象,随后结束判断;
[0014]若相似度在一预设的第二范围,转向步骤S5;
[0015]若相似度在一预设的第三范围,转向步骤S6;
[0016]步骤S5:对所述用户发起验证码校验,并判断所述用户是否通过校验;
[0017]若是,接受所述访问请求并向所述用户返回请求的所述访问对象,随后结束判断;
[0018]若否,转向步骤S6;
[0019]步骤S6:将所述连接地址存入黑名单,随后结束判断。
[0020]优选地,所述步骤S3包括:
[0021]步骤S31:判断所述连接地址是否在预设的高风险连接地址范围内;
[0022]若是,增加所述相似度的数值,随后转向步骤S32;
[0023]若否,转向所述步骤S32;
[0024]步骤S32:根据所述访问对象和所述状态码判断是否符合第一访问规律
[0025]若是,判断所述连接地址为具有爬虫行为的连接地址,随后转向步骤S6;
[0026]若否,转向步骤S33;
[0027]步骤S33:根据所述访问对象判断是否符合第二访问规律;
[0028]若是,判断所述连接地址为具有爬虫行为的连接地址,随后转向步骤S6;
[0029]若否,转向步骤S34;
[0030]步骤S34:根据所述状态码和所述连接地址判断是否符合第三访问规律;
[0031]若是,判断所述连接地址为具有爬虫行为的连接地址,随后转向步骤S6;
[0032]若否,转向步骤S35;
[0033]步骤S35:判断自所述连接地址发出的所述访问请求的次数是否在预定时间内超过访问限值;
[0034]若是,增加所述相似度的数值,随后转向步骤S4;
[0035]若否,转向步骤S4。
[0036]优选地,所述相似度的计算公式为:
[0037][0038]其中:cosθ为所述相似度,x1为所述连接地址,x2为所述黑名单中连接地址的频率,y1为所述访问对象,y2为所述黑名单中访问对象的频率。
[0039]优选地,所述步骤S4还包括:
[0040]步骤S41:从所述访问请求中提取用户标识;
[0041]步骤S42:判断所述用户标识是否在预设用户标识范围中;
[0042]若是,接受所述访问请求并向所述用户返回请求的所述访问对象,随后结束判断;
[0043]若否,转向步骤S43;
[0044]步骤S43:计算并判断所述访问请求与爬虫行为的相似度;
[0045]若相似度在所述第一范围中,接受所述访问请求并向所述用户返回请求的所述访问对象,随后结束判断;
[0046]若相似度在所述第二范围中,转向步骤S5;
[0047]若相似度在所述第三范围中,转向步骤S6。
[0048]优选地,所述步骤S5包括:
[0049]步骤S51:向所述用户发送验证码认证请求,并记录认证次数;
[0050]步骤S52:判断所述认证次数是否达到认证上限值;
[0051]若是,转向步骤S6;
[0052]若否,转向步骤S53;
[0053]步骤S53:判断所述认证请求是否通过;
[0054]若是,接受所述访问请求并向所述用户返回请求的所述访问对象,随后结束判断;
[0055]若否,返回所述步骤S51。
[0056]优选地,所述步骤S6包括:
[0057]根据所述连接地址或所述访问对象,对所述连接地址设置在所述黑名单中存储的周期;
[0058]所述周期为预设的第一周期或第二周期。
[0059]一种爬虫行为的防范系统,其特征在于,用于实施上述的识别方法,包括:
[0060]负载均衡模块,所述负载均衡模块连接多个用户并用于接收所述用户发出的访问请求;
[0061]分析模块,所述分析模块接收自所述负载均衡模块转发的所述访问请求,并判断所述访问请求与预设爬虫模型的相似度;
[0062]校验模块,所述校验模块连接所述分析模块,根据所述相似度向所述用户发出验证码校验请求;
[0063]日志模块,所述日志模块连接所述分析模块与所述校验模块,用于将所述相似度极高的,和/或未通过验证码校验请求的所述用户加入黑名单;
[0064]所述负载均衡模块根据所述黑名单判断是否转发所述外部用户的访问请求。
[0065]优选地,所述日志模块还包括:
[0066]行为分析子模块,所述行为分析子模块从所述日志模块中存储的日志读取所述用户、连接地址、访问对象和状态码,并根据所述用户、所述连接地址、所述访问对象和所述状态码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种爬虫行为的识别方法,其特征在于,包括:步骤S1:接收用户的访问请求,并记录连接地址、访问对象和状态码;步骤S2:将所述连接地址、所述访问对象和所述状态码存入一日志模块;步骤S3:采用所述日志模块对所述连接地址的所述访问对象与所述状态码进行分析,并根据分析结果判断所述连接地址是否为具有爬虫行为的连接地址;若是,转向步骤S6;若否,转向步骤S4;步骤S4:采用一分析模块判断所述访问请求与爬虫行为的相似度;若相似度在一预设的第一范围,接受所述访问请求并向所述用户返回请求的所述访问对象,随后结束判断;若相似度在一预设的第二范围,转向步骤S5;若相似度在一预设的第三范围,转向步骤S6;步骤S5:对所述用户发起验证码校验,并判断所述用户是否通过校验;若是,接受所述访问请求并向所述用户返回请求的所述访问对象,随后结束判断;若否,转向步骤S6;步骤S6:将所述连接地址存入黑名单,随后结束判断。2.根据权利要求1所述的识别方法,其特征在于,所述步骤S3包括:步骤S31:判断所述连接地址是否在预设的高风险连接地址范围内;若是,增加所述相似度的数值,随后转向步骤S32;若否,转向所述步骤S32;步骤S32:根据所述访问对象和所述状态码判断是否符合第一访问规律若是,判断所述连接地址为具有爬虫行为的连接地址,随后转向步骤S6;若否,转向步骤S33;步骤S33:根据所述访问对象判断是否符合第二访问规律;若是,判断所述连接地址为具有爬虫行为的连接地址,随后转向步骤S6;若否,转向步骤S34;步骤S34:根据所述状态码和所述连接地址判断是否符合第三访问规律;若是,判断所述连接地址为具有爬虫行为的连接地址,随后转向步骤S6;若否,转向步骤S35;步骤S35:判断自所述连接地址发出的所述访问请求的次数是否在预定时间内超过访问限值;若是,增加所述相似度的数值,随后转向步骤S4;若否,转向步骤S4。3.根据权利要求1所述的识别方法,其特征在于,所述相似度的计算公式为:其中:cosθ为所述相似度,x1为所述连接地址,x2为所述黑名单中连接地址的频率,y1为所述访问对象,y2为所述黑名单中访问对象的频率。4.根据权利要求1所述的识别方法,...

【专利技术属性】
技术研发人员:王文彪于刚李志刚
申请(专利权)人:壹药网科技上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1