一种针对爬虫的数据处理方法技术

技术编号：12023079 阅读：134 留言：0更新日期：2015-09-09 20:12

本发明专利技术公开了一种针对爬虫的数据处理方法，步骤1：管理登录并利用黑白名单池在后台录入白名单，并将黑名单的操作时间设定为X分钟有效；判断当前登录页面的IP为黑名单还是白名单；步骤3：当前登录页面的IP为白名单时，让该IP进行正常页面逻辑操作；步骤4：当前登录页面的IP为黑名单时，让该IP进入验证码页面操作，在该IP写完验证码后，释放该IP不在为黑名单，让该IP进行正常页面逻辑操作；步骤5：当前登录页面的IP为非黑名单和非白名单时，进入计数器池，在Cache计数器会在Cache计数器过期前加1操作，比较累加后的计数值和阀值，当计数值小于阀值，判定该IP为非爬虫，当计数值大于阀值，则判定该IP为爬虫。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据处理
，具体是。
技术介绍
网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。通过分析apache日志发现，某系统40%的带宽和服务器资源都消耗在爬虫上，如果除去10%_15%搜索引擎的爬虫，做好反爬虫策略，能节省20%_25%的资源，其实是变向优化了 web系统。爬虫请求是类似httpClient的机制或curl、wget的命令，而正常用户请求一般走浏览器。爬虫请求一般不会执行页面里的异步JavaScript操作，而用户请求则执行Jquery提供的异步JavaScript操作。
技术实现思路
本专利技术的目的在于提供，可以以有效的区分爬虫请求和正常用户请求，从而将爬虫请求阻挡，节省系统资源。本专利技术的目的主要通过以下技术方案实现:，包括以下步骤: 步骤1:管理登录并利用黑白名单池在后台录入白名单，并将黑名单的操作时间设定为X分钟有效；步骤2:判断当前登录页面的IP为黑名单还是白名单；步骤3:当前登录页面的IP为白名单时，让该IP进行正常页面逻辑操作； ...

【技术保护点】
一种针对爬虫的数据处理方法，其特征在于：包括以下步骤：步骤1：管理登录并利用黑白名单池在后台录入白名单，并将黑名单的操作时间设定为X分钟有效；步骤2：判断当前登录页面的IP为黑名单还是白名单；步骤3：当前登录页面的IP为白名单时，让该IP进行正常页面逻辑操作；步骤4：当前登录页面的IP为黑名单时，让该IP进入验证码页面操作，在该IP写完验证码后，释放该IP不在为黑名单，同时让该IP进行正常页面逻辑操作；步骤5：当前登录页面的IP为非黑名单和非白名单时，利用流量统计工具进行筛查，进入计数器池，在Cache计数器会在Cache计数器过期前加1操作，然后比较累加后的计数值和阀值，当计数值小于阀值，判...

【技术特征摘要】

【专利技术属性】
技术研发人员：严澜，
申请(专利权)人：成都创行信息科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人