一种爬虫识别和防控方法、装置、计算机可读存储介质及电子设备制造方法及图纸

技术编号：45078894 阅读：24 留言：0更新日期：2025-04-25 18:19

本申请涉及一种爬虫识别和防控方法及装置。本方法包括：接收前端发送的查询请求，网站后端识别该请求是否为爬虫请求；若该请求识别为正常用户查询请求，则通过正常用户的访问流程进行处理和查询；若该请求识别为爬虫请求，则直接从缓存中查询非实时数据，并将查询到的非实时数据组装成响应结果返回网站后端；网站后端将该响应结果作为查询结果返回给爬虫程序。本申请通过建立一套识别爬虫的策略，将爬虫的请求疏导至高效的缓存/静态文件上，通过将爬虫所需爬取的数据进行缓存或者静态化，无需保证这些数据的准确性和实时性，即可高效地输出给爬虫，利用爬虫无法识别其爬取的数据准确性的特点，缓解爬虫的影响，实现对正常用户请求输出高效响应。

全部详细技术资料下载

【技术实现步骤摘要】

本申请属于爬虫识别控制，特别涉及一种爬虫识别和防控方法、装置、计算机可读存储介质以及电子设备。

技术介绍

1、随着互联网技术的飞速发展，用户的信息系统内容被广泛发布于互联网，供公众获取。这些信息对于信息整合商和信息分析企业或个人来说，具有极高的商业价值。为了获取这些数据，他们常采用网络爬虫或网页爬虫技术，通过自动化手段大量抓取网站数据，并将其转化为商业价值。

2、网络爬虫通过高频率访问网站，会对网站造成巨大压力，导致服务器、数据库等层面承受巨大负载。这不仅影响了网站的响应速度，还可能导致服务无法响应或响应超时，严重影响正常用户的使用体验。因此，网站的技术厂商或团队不得不投入更多资源或研究技术策略来应对爬虫带来的压力。

3、目前，常规的技术方案主要是通过识别爬虫的特征来进行防控，如ip特征(包括ip地址、访问频率等)，并采取禁止访问或人机交互(如登录、验证码)等措施。这些方案虽然在短期内有效，但随着时间的推移，爬虫技术团队能够迅速攻克这些策略，继续进行数据抓取。在实际应用中，这些以“堵”为主的策略，爬虫能够快速感知...

【技术保护点】

1.一种爬虫识别和防控方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述网站后端识别该请求是否为爬虫请求，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：在进行网页程序编写时，写入一个非常规请求头，之后在每次调用请求的请求头中，都带入该非常规请求头。

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：在首页或者初始化界面中设置一个页面特殊请求，在首页或者初始化界面打开时调用；后台调用所述页面特殊请求后，立即在缓存中存储一个认证...

【技术特征摘要】

1.一种爬虫识别和防控方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述网站后端识别该请求是否为爬虫请求，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：在首页或者初始化界面中设置一个页面特殊请求，在首页或者初始化界面打开时调用；后台调用所述页面特殊请求后，立即在缓存中存储一个认证值，并将该认证值写入浏览器cookie；下次调用其他请求时，如果从cookie中...

【专利技术属性】
技术研发人员：臧凌，杨佳杰，贾宇清，李雄清，马欣，钟文超，黄斯诺，
申请(专利权)人：中国民航信息网络股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人