网络爬虫处置方法、装置、服务器及存储介质制造方法及图纸

技术编号:33211373 阅读:15 留言:0更新日期:2022-04-27 16:47
本申请涉及一种网络爬虫处置方法、装置、服务器和存储介质。该方法包括:对网络日志数据进行分析,获取网络日志数据中的预设字段,通过预设字段,确定网络日志数据所属的网络爬虫类别,根据网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单。采用本方法能够对待处置网络爬虫相关的网络日志数据进行处理,先确定网络日志数据所属的网络爬虫类别,进一步根据网络日志数据所属的网络爬虫类别去更新网络爬虫的地址名单,避免了对网络爬虫在不分类的情况下进行统一处置所存在的问题,从而提高地址名单更新的准确性,进一步提高了处置效果。处置效果。处置效果。

【技术实现步骤摘要】
网络爬虫处置方法、装置、服务器及存储介质


[0001]本申请涉及计算机
,特别是涉及一种网络爬虫处置方法、装置、服务器及存储介质。

技术介绍

[0002]目前,云计算的发展趋势迅猛,日益被大众所熟知并接受,企业也逐渐将各类应用、网站、服务迁移到云服务商提供的云计算环境。同时,通过网络爬虫程序访问web页面,从网络上获取数据的现象越来越普遍。其中,网络爬虫大致分为搜索引擎爬虫和恶意爬虫,通常需要对网络爬虫进行检测,拒接恶意爬虫程序访问web页面,以确保网络的安全性。
[0003]传统技术中,采用主动型网络爬虫处置和被动型网络爬虫处置,对网络爬虫进行统一处置。但是,采用传统的方式处置网络爬虫,会导致处置效果较差。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种网络爬虫处置方法、装置、服务器及存储介质。
[0005]一种网络爬虫处置方法,所述方法包括:
[0006]对网络日志数据进行分析,获取所述网络日志数据中的预设字段;
[0007]通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别;
[0008]根据所述网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单,所述网络爬虫的地址单名用于对网络访问请求进行处置。
[0009]在其中一个实施例中,所述对网络日志数据进行分析,确定所述网络日志数据中的预设字段,包括:
[0010]对网络访问请求数据进行预处理,得到所述网络日志数据;
[0011]根据时序数据库中的功能函数对所述网络日志数据进行分析,确定所述预设字段。
[0012]在其中一个实施例中,所述对网络访问请求数据进行预处理,得到所述网络日志数据,包括:
[0013]从内存中获取所述网络访问请求数据;所述网络访问请求数据包括Nginx变量;
[0014]根据网络爬虫需求,从所述Nginx变量中筛选待处置网络爬虫的相关变量,并将所述相关变量确定为所述网络日志数据。
[0015]在其中一个实施例中,所述通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别,包括:
[0016]根据所述预设字段,确定初始搜索引擎爬虫的用户代理;
[0017]根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别。
[0018]在其中一个实施例中,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:
[0019]从所述网络日志数据中获取所述用户代理对应的IP地址列表;所述IP地址列表中包括多个第一IP地址;
[0020]根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别。
[0021]在其中一个实施例中,所述根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别,包括:
[0022]对所述第一IP地址与对应的所述第二IP地址进行比较;
[0023]若所述第一IP地址与对应的所述第二IP地址相同,则确定所述网络日志数据为目标搜索引擎爬虫;
[0024]若所述第一IP地址与对应的所述第二IP地址不相同,则确定所述网络日志数据为恶意网络爬虫。
[0025]在其中一个实施例中,所述方法还包括:
[0026]若所述第一IP地址与对应的所述第二IP地址不相同,则将所述第一IP地址从所述IP地址列表中删除。
[0027]在其中一个实施例中,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:
[0028]若所述用户代理中包含编程语言内容,则将所述网络日志数据确定为恶意网络爬虫。
[0029]在其中一个实施例中,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:
[0030]根据所述功能函数,从所述预设字段中获取网络爬虫请求特征,所述网络爬虫请求特征包括访问频率和/或访问异常信息;
[0031]根据所述网络爬虫请求特征,确定所述网络日志数据所属的网络爬虫类别。
[0032]在其中一个实施例中,若所述网络日志数据所属的网络爬虫类别为恶意网络爬虫,则所述更新网络爬虫的地址名单,包括:
[0033]若所述恶意网络爬虫灰名单中的第三IP地址为预设时间内的更新IP地址,且所述更新IP地址对应的网络日志数据的访问频率大于预设频率阈值,则根据用户指令更新所述地址名单。
[0034]在其中一个实施例中,所述地址名单包括恶意网络爬虫灰名单和恶意网络爬虫黑名单,所述根据用户指令更新所述地址名单,包括:
[0035]若所述用户指令指示所述网络日志数据为正常访问请求数据,则将所述恶意网络爬虫灰名单中的所述更新IP地址进行删除;
[0036]若所述用户指令指示所述网络访问请求数据为恶意网络爬虫,则将所述更新IP地址添加至所述恶意网络爬虫黑名单中。
[0037]一种网络爬虫处置装置,所述装置包括:
[0038]分析模块,用于对网络日志数据进行分析,获取所述网络日志数据中的预设字段;
[0039]爬虫类别确定模块,用于通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别;
[0040]地址名单更新模块,用于根据所述网络日志数据所属的网络爬虫类别,更新网络
爬虫的地址名单,所述网络爬虫的地址单名用于对网络访问请求进行处置。
[0041]一种服务器,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0042]对网络日志数据进行分析,获取所述网络日志数据中的预设字段;
[0043]通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别;
[0044]根据所述网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单,所述网络爬虫的地址单名用于对网络访问请求进行处置。
[0045]一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0046]对网络日志数据进行分析,获取所述网络日志数据中的预设字段;
[0047]通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别;
[0048]根据所述网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单,所述网络爬虫的地址单名用于对网络访问请求进行处置。
[0049]上述网络爬虫处置方法、装置、服务器和存储介质,服务器可以对网络日志数据进行分析,获取网络日志数据中的预设字段,通过预设字段,确定网络日志数据所属的网络爬虫类别,根据网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单,上述方法能够对待处置网络爬虫相关的网络日志数据进行处理,先确定网络日志数据所属的网络爬虫类别,进一步根据网络日志数据所属的网络爬虫类别去更新网络爬虫的地址名单,避免了对网络爬虫在不分类的情况下进行统一处置所存在的问题,从而提高地址名单更新的准确性,进一步提高了处置效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫处置方法,其特征在于,所述方法包括:对网络日志数据进行分析,获取所述网络日志数据中的预设字段;通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别;根据所述网络日志数据所属的网络爬虫类别,更新网络爬虫的地址名单,所述网络爬虫的地址单名用于对网络访问请求进行处置。2.根据权利要求1所述的方法,其特征在于,所述对网络日志数据进行分析,确定所述网络日志数据中的预设字段,包括:对网络访问请求数据进行预处理,得到所述网络日志数据;根据时序数据库中的功能函数对所述网络日志数据进行分析,确定所述预设字段。3.根据权利要求2所述的方法,其特征在于,所述对网络访问请求数据进行预处理,得到所述网络日志数据,包括:从内存中获取所述网络访问请求数据;所述网络访问请求数据包括Nginx变量;根据网络爬虫需求,从所述Nginx变量中筛选待处置网络爬虫的相关变量,并将所述相关变量确定为所述网络日志数据。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述通过所述预设字段,确定所述网络日志数据所属的网络爬虫类别,包括:根据所述预设字段,确定初始搜索引擎爬虫的用户代理;根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别。5.根据权利要求4所述的方法,其特征在于,所述根据所述用户代理,确定所述网络日志数据所属的网络爬虫类别,包括:从所述网络日志数据中获取所述用户代理对应的IP地址列表;所述IP地址列表中包括多个第一IP地址;根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别。6.根据权利要求5所述的方法,其特征在于,所述根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址,确定所述网络日志数据所属的网络爬虫类别,包括:对所述第一IP地址与对应的所述第二IP地址进行比较;若所述第一IP地址与对应的所述第二IP地址相同,则确定所述网络日志数据为目标搜索引擎爬虫;若所述第一IP地址与对应的所述第二IP地址不相同,则确定所述网络日志数据为恶意网络爬虫。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:若所述第一IP地址与对应的所述第二IP地址不相同,则...

【专利技术属性】
技术研发人员:何嘉杰邓玉江魁栋
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1