The invention discloses a network crawler detection method based on IP analysis of access log. The specific steps are: using the feature detection method to detect the features in the access request data packet to determine whether it is a common crawler; using the access behavior detection method to detect the proportion of IP accessing static and dynamic resources to determine whether the IP is a high-level crawler; and using the special crawler detection method to detect website connection. The invention identifies IP by three detection methods, which can cover ordinary, advanced and special crawlers, can effectively identify crawlers from a larger range, and can control the false alarm rate by adjusting parameters in the detection process, which is more in line with the actual work needs.
【技术实现步骤摘要】
一种基于访问日志IP分析的网络爬虫检测方法
本专利技术涉及网络爬虫检测领域,具体涉及一种基于访问日志IP分析的网络爬虫检测方法。
技术介绍
随着互联网的发展,越来越多的行业开始通过网站的形式向广大网民展示其主营的各项业务和数据,而网络爬虫则可以自动的获取这些数据,从而爬虫所有者可以通过这些数据获利,例如有的人通过编写爬虫程序爬取电商网站的商品信息,从这些数据中可以获取到每个商品的价格,而作为竞争对手可以以此价格为参考,适当降低自己商场的同款商品的价格,从而保持销售优势。又或者对于一些权威信息,如企业信用信息查询,这些数据只能通过政府网站进行查询,而爬虫编写者可以通过网络爬虫批量获取数据,然后将这些数据转卖给需要这些信息的人从而获利。目前常用的反爬虫手段是通过访问频率来对爬虫IP进行封锁。首先设置一个访问阈值,当某个IP的访问频率超过阈值则拦截此IP的访问请求。这种方法对于普通爬虫来说可以起到很好的拦截效果,但是对于高级爬虫则并不能有效进行拦截。爬虫可以通过降低访问频率、增加IP数量等方式绕过检测。而且这种方法还容易产生误拦截,如公司出口IP、小区出口IP等,一个IP并不一定代表唯一一个正常用户,有时候一个IP可能有几百个用户在使用,如果单通过访问频率来识别则有可能会对正常用户进行误拦截。术语定义:网络爬虫:又称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。网络爬虫被广泛应用于搜索引擎或用来爬取特定网站内容。访问日志:即网站用户访问记录,访问日志详细记录了每个用户访问网站的情况,其中包含访问者的IP地址、访问的RUL、访问 ...
【技术保护点】
1.一种基于访问日志IP分析的网络爬虫检测方法,其特征在于,包括以下步骤:(1)、使用特征检测法检测访问请求数据包中的特征来判断是否为普通爬虫,如果识别成功则判定该IP属于网络爬虫,否则进入下一步;(2)、使用访问行为检测法检测IP访问静态资源和动态资源的比例来判断该IP是否为高级爬虫,如果识别成功则判定该IP属于网络爬虫,否则进入下一步;(3)、使用特殊爬虫检测法检测网站接口的访问量来判断是否为爬虫,如果识别成功则判定该IP属于网络爬虫,否则判定为非爬虫IP;(4)、输出判定结果。
【技术特征摘要】
1.一种基于访问日志IP分析的网络爬虫检测方法,其特征在于,包括以下步骤:(1)、使用特征检测法检测访问请求数据包中的特征来判断是否为普通爬虫,如果识别成功则判定该IP属于网络爬虫,否则进入下一步;(2)、使用访问行为检测法检测IP访问静态资源和动态资源的比例来判断该IP是否为高级爬虫,如果识别成功则判定该IP属于网络爬虫,否则进入下一步;(3)、使用特殊爬虫检测法检测网站接口的访问量来判断是否为爬虫,如果识别成功则判定该IP属于网络爬虫,否则判定为非爬虫IP;(4)、输出判定结果。2.根据权利要求1所述的一种基于访问日志IP分析的网络爬虫检测方法,其特征在于,所述特征检测法适用于普通爬虫,首先获取访问请求中的UserAgent字段,检测UserAgent中是否包含自动化程序特征,包括python、ruby、PhantomJS、pycurl、httpunit、Wget、Java,如果检测到以上关键词特征则判定为爬虫。3.根据权利要求1所述的一种基于访问日志IP分析的网络爬虫检测方法,其特征在于,所述访问行为检测法适用于高级爬虫,分为以下几个步骤:(1)、将网站访问日志按照IP维度进行划分,即获取每个IP的全部网站访问日志;(2)、在步骤(1)的基础上过滤出HTTP状态码等于200的日志,其它日志均去除掉;(...
【专利技术属性】
技术研发人员:仲俊霖,
申请(专利权)人:成都知道创宇信息技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。