The invention relates to the field of information security, and discloses an anti reptile method based on access behavior, which solves the problem that the existing anti crawler method is difficult to distinguish malicious requests. The present invention includes: website design stage, using the MVC model, the static and dynamic separation of resources resources deployment; through the analysis of the way, get a normal request within a specified time of static resources and dynamic resource proportion of T; when the site receives a client access request, analysis of the number of resources in the access request the specific time to visit is in accordance with the proportion of T, if not, the access request for malicious requests, banned the client's request for a period of time; if so, the request for the normal request, according to the normal request. The invention is suitable for the development of the web site.
【技术实现步骤摘要】
一种基于访问行为的反爬虫方法
本专利技术涉及信息安全领域,特别涉及一种基于访问行为的反爬虫方法。
技术介绍
在互联网发展的今天,每个网站都有一些公开数据供正常用户浏览,但是不希望被恶意爬虫获取,例如,电商数据中商品的价格,供正常用户浏览,而不希望被竞争对手轻易获取。网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。在反爬虫领域常使用如下做法:方法一,通过对请求者的ip地址进行统计,当访问频率或者访问次数达到一定阈值的时候,封禁此ip的请求。方法二,通过反向扫描,查看客户端的端口开放情况,以决定是否封禁客户端ip。以上方式都存在着较大的缺陷。由于现行的ipv4地址数量有限,很多用户都使用同一个外网ip,这样很容易达到上述方式一中的频率或阈值,造成误伤。方式二通过反向扫描以确定客户端是否正常,但是实际中存在着打开非常用端口的客户端,因此方式二也容易造成误伤。
技术实现思路
本专利技术要解决的技术问题是:提供一种基于访问行为的反爬虫方法,解决现有反爬虫方法难以区分恶意请求的问题。为解决上述问题,本专利技术采用的技术方案是:一种基于访问行为的反爬虫方法,包括以下步骤:A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间; ...
【技术保护点】
一种基于访问行为的反爬虫方法,其特征在于,包括以下步骤:A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。
【技术特征摘要】
1.一种基于访问行为的反爬虫方法,其特征在于,包括以下步骤:A.网站设计阶段,使用MVC的模式,将静态资源、动态资源分离部署;B.通过分析的方式,得到一个正常请求在特定时间内静态资源、动态资源的数目比例T;C.当网站收到客户端的访问请求时,分析该访问请求在所述特定时间内要访问的资源数目是否符合数目比例T,如果不符合,则认为该访问请求为恶意请求,封禁此客户端的请求一段时间;如果符合,则认为该访问请求为正常请求,按正常请求处理。2...
【专利技术属性】
技术研发人员:付强,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。