一种基于访问行为的反爬虫方法技术

技术编号:17307563 阅读:50 留言:0更新日期:2018-02-19 04:41
本发明专利技术涉及信息安全领域,公开了一种基于访问行为的反爬虫方法,解决现有反爬虫方法难以区分恶意请求的问题。本发明专利技术包括:网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。本发明专利技术适用于网站开发。

An anti reptilian method based on access behavior

The invention relates to the field of information security, and discloses an anti reptile method based on access behavior, which solves the problem that the existing anti crawler method is difficult to distinguish malicious requests. The present invention includes: website design stage, using the MVC model, the static and dynamic separation of resources resources deployment; through the analysis of the way, get a normal request within a specified time of static resources and dynamic resource proportion of T; when the site receives a client access request, analysis of the number of resources in the access request the specific time to visit is in accordance with the proportion of T, if not, the access request for malicious requests, banned the client's request for a period of time; if so, the request for the normal request, according to the normal request. The invention is suitable for the development of the web site.

【技术实现步骤摘要】
一种基于访问行为的反爬虫方法
本专利技术涉及信息安全领域,特别涉及一种基于访问行为的反爬虫方法。
技术介绍
在互联网发展的今天,每个网站都有一些公开数据供正常用户浏览,但是不希望被恶意爬虫获取,例如,电商数据中商品的价格,供正常用户浏览,而不希望被竞争对手轻易获取。网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。在反爬虫领域常使用如下做法:方法一,通过对请求者的ip地址进行统计,当访问频率或者访问次数达到一定阈值的时候,封禁此ip的请求。方法二,通过反向扫描,查看客户端的端口开放情况,以决定是否封禁客户端ip。以上方式都存在着较大的缺陷。由于现行的ipv4地址数量有限,很多用户都使用同一个外网ip,这样很容易达到上述方式一中的频率或阈值,造成误伤。方式二通过反向扫描以确定客户端是否正常,但是实际中存在着打开非常用端口的客户端,因此方式二也容易造成误伤。
技术实现思路
本专利技术要解决的技术问题是:提供一种基于访问行为的反爬虫方法,解决现有反爬虫方法难以区分恶意请求的问题。为解决上述问题,本专利技术采用的技术方案是:一种基于访问行为的反爬虫方法,包括以下步骤:A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。进一步的,步骤A中所述的分析方式包括:人工分析和/或者日志分析和/或者流量分析。进一步的,所述特定时间通过流量或日志的均值得到。进一步的,步骤C封禁客户端的方式包括:首先对发送恶意请求的客户端添加标识,并记录其ip地址;然后拒绝被记录了ip且添加了标识的客户端的访问请求。本专利技术的有益效果是:本专利技术在收到访问请求的时候,通过将其与正常访问模型相比较的方式,以较小的代价,降低了爬虫的重用性,提高了网站数据的安全性。附图说明图1为实施例的流程图。具体实施方式在网站开发中,一般都遵循MVC的开发模式,前端负责数据的展示。展示的页面可以分为静态资源和动态资源。在部署的时候,静态资源和动态资源分离部署。一个正常的完整请求模型,既包含对静态资源的访问,又包含对动态资源的访问。动态资源才是爬虫感兴趣的内容,以下实施例正是基于此,将不符合的正常请求模型的断定为恶意请求(爬虫)。因此,实施例提供一种基于访问行为的反爬虫方法,如图1所示,包括步骤:A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B.通过人工分析和/或者日志分析和/或者流量分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;其中,这里的特定时间可以通过流量或日志的均值得到;C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合数目比例T,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合数目比例T,则认为该访问请求为正常请求,按正常请求处理。在封禁客户端的时候,为避免误伤使用同一个外网ip其他用户,实施例可以采用“ip+客户端标识”的方式进行封禁,即:首先对发送恶意请求的客户端添加标识,并记录其ip地址;然后拒绝被记录了ip且添加了标识的客户端的访问请求。以上描述了本专利技术的基本原理和主要的特征,说明书的描述只是说明本专利技术的原理,在不脱离本专利技术精神和范围的前提下,本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内。本文档来自技高网...
一种基于访问行为的反爬虫方法

【技术保护点】
一种基于访问行为的反爬虫方法,其特征在于,包括以下步骤:A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。

【技术特征摘要】
1.一种基于访问行为的反爬虫方法,其特征在于,包括以下步骤:A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。2...

【专利技术属性】
技术研发人员:付强
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1