一种网络爬虫的处理方法、系统及设备技术方案

技术编号:29286587 阅读:21 留言:0更新日期:2021-07-16 23:59
本申请的目的是提供一种网络爬虫的处理方法、系统及设备,本申请通过接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。从而高效、精确地识别了恶意爬虫和正常流量并分别加以处置,同时可视化直观展示了爬虫数据,便于网站管理人员对爬虫类别相关数据进行针对性分析。数据进行针对性分析。数据进行针对性分析。

A processing method, system and equipment of web crawler

【技术实现步骤摘要】
一种网络爬虫的处理方法、系统及设备


[0001]本申请涉及计算机领域,尤其涉及一种网络爬虫的处理方法、系统及设备。

技术介绍

[0002]据统计,互联网上高达30%-60%的流量是由Bot网络机器人所产生,仅有部分流量是由人类正常访问行为产生。这些程序流量并非全部恶意,也有正常Bot程序,如搜索引擎爬虫、广告程序、第三方合作伙伴程序、Robots协议友好程序等,它们是属于正常机器流量。
[0003]然而恶意爬虫Bot程序则会造成业务网站服务不可用、用户体验降低、网站漏洞安全问题、业务故障等问题,导致业务数据被爬、接口被刷、CC攻击导致服务不可用等,会给企业带来极高的风险及难以估计的损失。恶意爬虫Bot流量占整体网络流量的比例更是高达30%以上。其中大公司面临的恶意Bot流量的威胁更为严峻,行业更是分布在在线博彩、航司、金融、医疗、票务等,其中电商、医疗、航司行业的恶意Bot流量的专业化程度更高,在现有技术中对于恶意爬虫Bot的识别效率低下,防护薄弱,不能精确识别恶意爬虫和正常流量,导致网站业务和知识产权极易受到侵害,例如:营销作弊、恶意撞库、航旅占座、无效运营、敏感信息被爬、接口被刷、服务器过载等后果。
[0004]现有方案一:通常网站会基于网络防火墙依靠IP识别做阻断,或通过与已经构建好的IP库做对比,其缺点在于:1)防护手段误伤概率较高;2)与已构建好的IP地址库对比,信息同步比较慢,且容易被代理IP绕过,无法产生相应的防护效果。
[0005]现有方案二:基于业务关键节点做控制,通过设置网站访问频率来限制访问请求,其缺点在于:1)只能针对部分场景化接口,误伤概率较高;2)与业务层的耦合性比较高,维护成本高,不能满足业务系统要求。
[0006]现有方案三:针对已知Bot类型开启防护,其缺点在于:1)防护处置方式手段单一;2)无法对未知Bot发现总结,且没有可视化页面直观展示爬虫数据,不利于网站管理人员针对性分析。

技术实现思路

[0007]本申请的一个目的是提供一种网络爬虫的处理方法、系统及设备,解决现有技术中对于恶意爬虫的识别效率低下,防护薄弱,不能精确识别恶意爬虫和正常流量,无法直观展示爬虫数据的问题。
[0008]根据本申请的一个方面,提供了一种网络爬虫的处理方法,该方法包括:
[0009]接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;
[0010]对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;
[0011]根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量
可视化展示,并调整所述当前业务的访问流量。
[0012]进一步地,所述对所述访问流量进行识别,包括:
[0013]根据历史爬虫网络地址以及行为特征信息来识别访问流量的爬虫信息,其中,所述历史爬虫网络地址为已知的爬虫信息。
[0014]进一步地,所述爬虫类别包括恶意爬虫和合法爬虫,所述方法包括:
[0015]根据预设的处置动作对已知爬虫中的恶意爬虫以及未知爬虫中的恶意爬虫进行处置处理得到处置后的洁净流量,将所述洁净流量返回源站。
[0016]进一步地,所述对未确定出所属的爬虫类别的访问流量进行行为分析识别,包括:
[0017]根据历史浏览数据以及历史爬虫抓取数据构建数据集,利用所述数据集训练人工智能模型,得到预设的人工智能模型;
[0018]通过所述预设的人工智能模型对未确定出所属的爬虫类别的访问流量进行行为分析识别。
[0019]进一步地,所述根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示包括:
[0020]根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别统计所述已知爬虫及所述未知爬虫的信息,根据统计到的所述已知爬虫及所述未知爬虫的信息进行聚类分析,确定爬虫类别信息,其中,所述爬虫类别信息包括:爬虫请求次数、已知爬虫的信息、未知爬虫的信息、合法爬虫的信息以及恶意爬虫的信息;
[0021]将所述访问流量按照对应的爬虫类别信息进行可视化展示。
[0022]进一步地,所述方法包括:
[0023]根据所述未知爬虫所属的类别、设备指纹、网络地址段、根据网站业务进行的行为对所述未知爬虫进行可视化展示。
[0024]进一步地,所述预设的处置动作包括:
[0025]根据用户的业务标识进行以下任意一项或多项组合处理:返回假数据、观察、放行、拦截、人机识别以及预设自定义字体库。
[0026]进一步地,所述方法还包括:
[0027]添加由控制策略组成的规则集以限制请求频率不在预设阈值内的访问流量。
[0028]根据本申请另一方面提供了一种网络爬虫的处理系统,其中,所述系统包括:爬虫检测模块、爬虫识别模块以及爬虫展示模块,其中,
[0029]所述爬虫检测模块用于接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;
[0030]所述爬虫识别模块用于对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;
[0031]所述爬虫展示模块用于根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。
[0032]进一步地,所述系统包括爬虫处理模块,所述爬虫处理模块用于根据预设的处置动作对已知爬虫中的恶意爬虫以及未知爬虫中的恶意爬虫进行处置处理得到处置后的洁净流量,将所述洁净流量返回源站。
[0033]根据本申请又一方面提供了一种计算机可读介质,其上存储有计算机可读指令,
所述计算机可读指令可被处理器执行以实现如前述任一项所述的一种网络爬虫的处理方法。
[0034]根据本申请再一方面提供了一种网络爬虫的处理设备,其中,所述设备包括:
[0035]一个或多个处理器;以及
[0036]存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述任一项所述一种网络爬虫的处理方法的操作。
[0037]与现有技术相比,本申请通过接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,根据历史爬虫网络地址库以及行为特征信息对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。从而高效、精确地识别了恶意爬虫和正常流量并分别加以处置,同时可视化直观展示了爬虫数据,便于网站管理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络爬虫的处理方法,其中,所述方法包括:接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。2.根据权利要求1所述的方法,其中,所述对所述访问流量进行识别,包括:根据历史爬虫网络地址以及行为特征信息来识别访问流量的爬虫信息,其中,所述历史爬虫网络地址为已知的爬虫信息。3.根据权利要求1所述的方法,其中,所述爬虫类别包括恶意爬虫和合法爬虫,所述方法包括:根据预设的处置动作对已知爬虫中的恶意爬虫以及未知爬虫中的恶意爬虫进行处置处理得到处置后的洁净流量,将所述洁净流量返回源站。4.根据权利要求1所述的方法,其中,所述对未确定出所属的爬虫类别的访问流量进行行为分析识别,包括:根据历史浏览数据以及历史爬虫抓取数据构建数据集,利用所述数据集训练人工智能模型,得到预设的人工智能模型;通过所述预设的人工智能模型对未确定出所属的爬虫类别的访问流量进行行为分析识别。5.根据权利要求1所述的方法,其中,所述根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示包括:根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别统计所述已知爬虫及所述未知爬虫的信息,根据统计到的所述已知爬虫及所述未知爬虫的信息进行聚类分析,确定爬虫类别信息,其中,所述爬虫类别信息包括:爬虫请求次数、已知爬虫的信息、未知爬虫的信息、合法爬虫的信息以及恶意爬虫的信息;将所述访问流量按照对应的爬虫类别信息进行可视化展示。6.根据...

【专利技术属性】
技术研发人员:朱传江高力
申请(专利权)人:上海云盾信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1