【技术实现步骤摘要】
本申请属于爬虫识别控制,特别涉及一种爬虫识别和防控方法、装置、计算机可读存储介质以及电子设备。
技术介绍
1、随着互联网技术的飞速发展,用户的信息系统内容被广泛发布于互联网,供公众获取。这些信息对于信息整合商和信息分析企业或个人来说,具有极高的商业价值。为了获取这些数据,他们常采用网络爬虫或网页爬虫技术,通过自动化手段大量抓取网站数据,并将其转化为商业价值。
2、网络爬虫通过高频率访问网站,会对网站造成巨大压力,导致服务器、数据库等层面承受巨大负载。这不仅影响了网站的响应速度,还可能导致服务无法响应或响应超时,严重影响正常用户的使用体验。因此,网站的技术厂商或团队不得不投入更多资源或研究技术策略来应对爬虫带来的压力。
3、目前,常规的技术方案主要是通过识别爬虫的特征来进行防控,如ip特征(包括ip地址、访问频率等),并采取禁止访问或人机交互(如登录、验证码)等措施。这些方案虽然在短期内有效,但随着时间的推移,爬虫技术团队能够迅速攻克这些策略,继续进行数据抓取。在实际应用中,这些以“堵”为主的策略,爬虫能够快速感知
...【技术保护点】
1.一种爬虫识别和防控方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述网站后端识别该请求是否为爬虫请求,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在进行网页程序编写时,写入一个非常规请求头,之后在每次调用请求的请求头中,都带入该非常规请求头。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:在首页或者初始化界面中设置一个页面特殊请求,在首页或者初始化界面打开时调用;后台调用所述页面特殊请求后,立即
...【技术特征摘要】
1.一种爬虫识别和防控方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述网站后端识别该请求是否为爬虫请求,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在进行网页程序编写时,写入一个非常规请求头,之后在每次调用请求的请求头中,都带入该非常规请求头。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:在首页或者初始化界面中设置一个页面特殊请求,在首页或者初始化界面打开时调用;后台调用所述页面特殊请求后,立即在缓存中存储一个认证值,并将该认证值写入浏览器cookie;下次调用其他请求时,如果从cookie中...
【专利技术属性】
技术研发人员:臧凌,杨佳杰,贾宇清,李雄清,马欣,钟文超,黄斯诺,
申请(专利权)人:中国民航信息网络股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。