网络爬虫拦截方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:32266144 阅读:17 留言:0更新日期:2022-02-12 19:28
本申请公开了一种网络爬虫拦截方法、装置、电子设备及可读存储介质,边缘节点每次接收到来自第一终端设备的访问请求后,根据该访问请求生成访问日志并发送至缓存器。计算集群实时读取消息队列中的第一访问日志,根据访问日志包含的域名从消息队列中读取包含多条包含该域名的访问日志,之后,根据多条访问日志确定第一访问日志对应的访问请求是否为恶意请求。该过程中,由于消息队列中的访问日志来自全网的边缘节点,计算集群对该全网数据进行分析,能够快速、准确的识别出恶意的网络爬虫。倘若有新的网络爬虫,只需要更新计算集群上的分析模型,无需对每个边缘节点的防护软件进行升级,速度快、过程简单。过程简单。过程简单。

【技术实现步骤摘要】
网络爬虫拦截方法、装置、电子设备及可读存储介质


[0001]本申请涉及网络安全
,特别涉及一种网络爬虫拦截方法、装置、电子设备及可读存储介质。

技术介绍

[0002]网络爬虫,也叫网络蜘蛛,通常根据网页的地址来寻找网页的统一资源定位符(Uniform Resource Locator,URL),进而根据URL爬取网站内容。
[0003]为了防止网络爬虫爬取网站内容,业界通过机器人协议对网络爬虫的行为进行规范,机器人协议也称之为爬虫协议、robots协议等。然而,一些恶意的网络爬虫并不遵守机器人协议,传统的机器人协议无法拦截该类恶意的网络爬虫。为此,内容分发网络(Content Delivery Network,CDN)中,在边缘节点部署防护软件,利用边缘节点对恶意的网络爬虫进行检测与防护。边缘节点接收到来自终端设备的超文本传输协议(Hyper Text Transfer Protocol,HTTP)请求后,分析HTTP请求中的互联网协议(Internet Protocol,IP)地址、用户代理 (User

Agent,UA)等唯一特征以识别出恶意的网络爬虫,同时结合黑白名单管理、反复违规惩罚等,从而在边缘节点拦截恶意的网络爬虫。
[0004]然而,CDN网络中,边缘节点众多,各个边缘节点相互独立,防护软件升级维护工作量大、操作步骤繁琐。

技术实现思路

[0005]本申请提供一种网络爬虫拦截方法、装置、电子设备及可读存储介质,计算集群实时采集全网数据并快速分析海量数据以检测出恶意的网络爬虫,速度快、升级维护工作量小,实现快速提高网络安全性的目的。
[0006]第一方面,本申请实施例提供一种网络拦截方法,应用于计算集群,该方法包括:
[0007]读取消息队列中的第一访问日志,所述消息队列是缓存器按照接收顺序对来自至少两个边缘节点的访问日志排序得到的;
[0008]根据所述第一访问日志包含的域名,从所述消息队列中依次读取多条包含所述域名的访问日志;
[0009]根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请求。
[0010]第二方面,本申请实施例提供一种网络拦截方法,应用于边缘节点,该方法包括:
[0011]接收来自第一终端设备的访问请求;
[0012]根据所述访问请求生成访问日志;
[0013]向缓存器发送所述访问日志,以使得所述缓存器按照接收顺序对来自至少一个边缘节点的访问日志排序得到消息队列。
[0014]第三方面,本申请实施例提供一种网络爬虫拦截装置,包括:
[0015]读取模块,用于读取消息队列中的第一访问日志,所述消息队列是缓存器按照接
收顺序对来自至少两个边缘节点的访问日志排序得到的;根据所述第一访问日志包含的域名,从所述消息队列中依次读取多条包含所述域名的访问日志;
[0016]处理模块,根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请求。
[0017]第四方面,本申请实施例提供一种网络爬虫拦截装置,包括:
[0018]接收模块,用于接收来自第一终端设备的访问请求;
[0019]处理模块,用于根据所述访问请求生成访问日志;
[0020]发送模块,用于向缓存器发送所述访问日志,以使得所述缓存器按照接收顺序对来自至少一个边缘节点的访问日志排序得到消息队列,所述消息队列中位于第一访问日志之后、且与所述第一访问日志包含相同域名的多条访问日志,用于确定所述第一访问日志对应的访问请求是否为恶意请求。
[0021]第五方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时使得所述电子设备实现如上第一方面或第一方面各种可能的实现方式所述的方法。
[0022]第六方面,本申请实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时使得所述电子设备实现如上第二方面或第二方面各种可能的实现方式所述的方法。
[0023]第七方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令在被处理器执行时用于实现如上第一方面或第一方面各种可能的实现方式所述的方法。
[0024]第八方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令在被处理器执行时用于实现如上第二方面或第二方面各种可能的实现方式所述的方法。
[0025]第九方面,本申请实施例提供一种包含计算程序的计算机程序产品,所述计算机程序被处理器执行时实现如上第一方面或第一方面各种可能的实现方式所述的方法。
[0026]第十方面,本申请实施例提供一种包含计算程序的计算机程序产品,所述计算机程序被处理器执行时实现如上第二方面或第二方面各种可能的实现方式所述的方法。
[0027]本申请实施例提供的网络爬虫拦截方法、装置、电子设备及可读存储介质,边缘节点每次接收到来自第一终端设备的访问请求后,根据该访问请求生成访问日志并发送至缓存器,缓存器按照接收顺序对来自至少两个边缘节点的访问日志排序得到消息队列。计算集群实时读取消息队列中的第一访问日志,根据访问日志包含的域名从消息队列中读取包含多条包含该域名的访问日志,之后,根据多条访问日志确定第一访问日志对应的访问请求是否为恶意请求。该过程中,由于消息队列中的访问日志来自全网的边缘节点,计算集群对该全网数据进行分析,能够快速、准确的识别出恶意的网络爬虫。倘若有新的网络爬虫,只需要更新计算集群上的分析模型,无需对每个边缘节点的防护软件进行升级,速度快、过程简单。而且,由于是对全网数据进行实时分析,因此,不会漏掉恶意的网络爬虫,实现提高网络安全性的目的。
附图说明
[0028]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1A是本申请实施例提供的网络爬虫拦截方法的一个实施环境示意图;
[0030]图1B是本申请实施例提供的网络爬虫拦截方法的另一个实施环境示意图;
[0031]图2是本申请实施例提供的网络爬虫拦截方法的流程图;
[0032]图3是本申请实施例提供的网络爬虫拦截方法的另一流程图;
[0033]图4是本申请实施例提供的网络爬虫拦截方法的又一个流程图;
[0034]图5为本申请实施例提供的一种网络爬虫拦截装置的示意图;
[0035]图6为本申请实施例提供的网络爬虫拦截装置的另一个示意图;
[0036]图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫拦截方法,其特征在于,应用于计算集群,包括:读取消息队列中的第一访问日志,所述消息队列是缓存器按照接收顺序对来自至少两个边缘节点的访问日志排序得到的;根据所述第一访问日志包含的域名,从所述消息队列中依次读取多条包含所述域名的访问日志;根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请求。2.根据权利要求1所述的方法,其特征在于,所述根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请求,包括:当所述第一访问日志包含第一标识时,确定所述多条访问日志中是否存在包含第二标识的第二访问日志,所述第一标识是所述访问请求中未携带客户端标识时所述边缘节点分配给第一终端设备的,所述第二标识是所述第一终端设备对所述第一标识执行目标操作生成的;若所述多条访问日志中不存在所述第二访问日志,则确定所述第一访问日志对应的访问请求为恶意请求。3.根据权利要求1所述的方法,其特征在于,所述根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请求,包括:从所述多条访问日志中的每条访问日志中提取出至少两个特征;根据从所述多条访问日志中每条访问日志提取出的至少两个特征,确定所述第一访问日志对应的访问请求是否为恶意请求,所述至少两个特征包括所述访问请求包含的任意两个字段,所述访问请求包含的字段包括客户端标识、IP地址、用户代理UA或统一资源定位符URL。4.根据权利要求3所述的方法,其特征在于,所述至少两个特征为客户端标识和IP地址,所述根据从所述多条访问日志中每条访问日志提取出的至少两个特征,确定所述第一访问日志对应的访问请求是否为恶意请求,包括:当所述第一访问日志包含的客户端标识为第二标识时,从所述多条访问日志中确定出包含所述第二标识的第二访问日志,以得到多个第二访问日志;确定所述多个第二访问日志中各第二访问日志包含的IP地址,以得到不同IP地址的数量;当不同IP地址的数量超过预设数量时,确定所述第一访问日志对应的访问请求为恶意请求。5.根据权利要求3所述的方法,其特征在于,所述至少两个特征为IP地址和URL,所述根据从所述多条访问日志中每条访问日志提取出的至少两个特征,确定所述第一访问日志对应的访问请求是否为恶意请求,包括:根据所述第一访问日志包含的IP地址,从所述多条访问日志中确定出包含所述IP地址的第三访问日志;当所述第三访问日志的数量大于预设阈值时,提取各所述第三访问日志中的URL;当不同URL的数量超过预设URL数量时,确定所述第一访问日志对应的访问请求为恶意请求。6.根据权利要求1

5任一项所述的方法,其特征在于,还包括:
按照存储器中各访问日志包含的域名,将所述存储器中的访问日志分流以得到多个访问日志流,属于同一访问日志流的各访问日志包含相同的域名,所述存储器中存储来自所述缓存器的访问日志;分析目标访问日志流中各访问日志包含的至少两个特征,以确定目标访问日志流包含的访问日志对应的访问请求中是否存在恶意请求。7.根据权利要求3

5任一项所述的方法,其特征在于,所述从所述多条访问日志中的每条访问日志中提取出至少两个特征之前,还包括:接收来自第二终端设备的配置请求,所述配置请求用于请求配置界面;向所述第二终端设备发送用于显示所述配置界面的数据流;接收所述第二终端设备通过所述配置界面发送的配置请求,所述配置请求用于指示所述至少两个特征。8.根据权利要求3

5任一项所述的方法,其特征在于,所述根据所述多条访问日志,确定所述第一访问日志对应的访问请求是否为恶意请求之后,还包括:当所述第一访问日志对应的访问请求为恶意请求时,向所述至少一个边缘节点中的各边缘节点发送拦截指令,所述拦截指令携...

【专利技术属性】
技术研发人员:吴伟彬黄林城
申请(专利权)人:网宿科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1