网络爬虫拦截方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：32266144 阅读：17 留言：0更新日期：2022-02-12 19:28

本申请公开了一种网络爬虫拦截方法、装置、电子设备及可读存储介质，边缘节点每次接收到来自第一终端设备的访问请求后，根据该访问请求生成访问日志并发送至缓存器。计算集群实时读取消息队列中的第一访问日志，根据访问日志包含的域名从消息队列中读取包含多条包含该域名的访问日志，之后，根据多条访问日志确定第一访问日志对应的访问请求是否为恶意请求。该过程中，由于消息队列中的访问日志来自全网的边缘节点，计算集群对该全网数据进行分析，能够快速、准确的识别出恶意的网络爬虫。倘若有新的网络爬虫，只需要更新计算集群上的分析模型，无需对每个边缘节点的防护软件进行升级，速度快、过程简单。过程简单。过程简单。

全部详细技术资料下载

【技术实现步骤摘要】
网络爬虫拦截方法、装置、电子设备及可读存储介质

[0001]本申请涉及网络安全
，特别涉及一种网络爬虫拦截方法、装置、电子设备及可读存储介质。

技术介绍

[0002]网络爬虫，也叫网络蜘蛛，通常根据网页的地址来寻找网页的统一资源定位符(Uniform Resource Locator，URL)，进而根据URL爬取网站内容。
[0003]为了防止网络爬虫爬取网站内容，业界通过机器人协议对网络爬虫的行为进行规范，机器人协议也称之为爬虫协议、robots协议等。然而，一些恶意的网络爬虫并不遵守机器人协议，传统的机器人协议无法拦截该类恶意的网络爬虫。为此，内容分发网络(Content Delivery Network，CDN)中，在边缘节点部署防护软件，利用边缘节点对恶意的网络爬虫进行检测与防护。边缘节点接收到来自终端设备的超文本传输协议(Hyper Text Transfer Protocol，HTTP)请求后，分析HTTP请求中的互联网协议(Internet Protocol，IP)地址、用户代理 (User
‑
Agent，UA)等唯一特征以识别出恶意的网络爬虫，同时结合黑白名单管理、反复违规惩罚等，从而在边缘节点拦截恶意的网络爬虫。
[0004]然而，CDN网络中，边缘节点众多，各个边缘节点相互独立，防护软件升级维护工作量大、操作步骤繁琐。

技术实现思路

[0005]本申请提供一种网络爬虫拦截方法、装置、电子设备及可读存储介质，计算集群实时采集全网数据并快速分析海...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫拦截方法，其特征在于，应用于计算集群，包括：读取消息队列中的第一访问日志，所述消息队列是缓存器按照接收顺序对来自至少两个边缘节点的访问日志排序得到的；根据所述第一访问日志包含的域名，从所述消息队列中依次读取多条包含所述域名的访问日志；根据所述多条访问日志，确定所述第一访问日志对应的访问请求是否为恶意请求。2.根据权利要求1所述的方法，其特征在于，所述根据所述多条访问日志，确定所述第一访问日志对应的访问请求是否为恶意请求，包括：当所述第一访问日志包含第一标识时，确定所述多条访问日志中是否存在包含第二标识的第二访问日志，所述第一标识是所述访问请求中未携带客户端标识时所述边缘节点分配给第一终端设备的，所述第二标识是所述第一终端设备对所述第一标识执行目标操作生成的；若所述多条访问日志中不存在所述第二访问日志，则确定所述第一访问日志对应的访问请求为恶意请求。3.根据权利要求1所述的方法，其特征在于，所述根据所述多条访问日志，确定所述第一访问日志对应的访问请求是否为恶意请求，包括：从所述多条访问日志中的每条访问日志中提取出至少两个特征；根据从所述多条访问日志中每条访问日志提取出的至少两个特征，确定所述第一访问日志对应的访问请求是否为恶意请求，所述至少两个特征包括所述访问请求包含的任意两个字段，所述访问请求包含的字段包括客户端标识、IP地址、用户代理UA或统一资源定位符URL。4.根据权利要求3所述的方法，其特征在于，所述至少两个特征为客户端标识和IP地址，所述根据从所述多条访问日志中每条访问日志提取出的至少两个特征，确定所述第一访问日志对应的访问请求是否为恶意请求，包括：当所述第一访问日志包含的客户端标识为第二标识时，从所述多条访问日志中确定出包含所述第二标识的第二访问日志，以得到多个第二访问日志；确定所述多个第二访问日志中各第二访问日志包含的IP地址，以得到不同IP地址的数量；当不同IP地址的数量超过预设数量时，确定所述第一访问日志对应的访问请求为恶意请求。5.根据权利要求3所述的方法，其特征在于，所述至少两个特征为IP地址和URL，所述根据从所述多条访问日志中每条访问日志提取出的至少两个特征，确定所述第一访问日志对应的访问请求是否为恶意请求，包括：根据所述第一访问日志包含的IP地址，从所述多条访问日志中确定出包含所述IP地址的第三访问日志；当所述第三访问日志的数量大于预设阈值时，提取各所述第三访问日志中的URL；当不同URL的数量超过预设URL数量时，确定所述第一访问日志对应的访问请求为恶意请求。6.根据权利要求1
‑
5任一项所述的方法，其特征在于，还包括：
按照存储器中各访问日志包含的域名，将所述存储器中的访问日志分流以得到多个访问日志流，属于同一访问日志流的各访问日志包含相同的域名，所述存储器中存储来自所述缓存器的访问日志；分析目标访问日志流中各访问日志包含的至少两个特征，以确定目标访问日志流包含的访问日志对应的访问请求中是否存在恶意请求。7.根据权利要求3
‑
5任一项所述的方法，其特征在于，所述从所述多条访问日志中的每条访问日志中提取出至少两个特征之前，还包括：接收来自第二终端设备的配置请求，所述配置请求用于请求配置界面；向所述第二终端设备发送用于显示所述配置界面的数据流；接收所述第二终端设备通过所述配置界面发送的配置请求，所述配置请求用于指示所述至少两个特征。8.根据权利要求3
‑
5任一项所述的方法，其特征在于，所述根据所述多条访问日志，确定所述第一访问日志对应的访问请求是否为恶意请求之后，还包括：当所述第一访问日志对应的访问请求为恶意请求时，向所述至少一个边缘节点中的各边缘节点发送拦截指令，所述拦截指令携...

【专利技术属性】
技术研发人员：吴伟彬，黄林城，
申请(专利权)人：网宿科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人