【技术实现步骤摘要】
一种网络数据自动获取器攻击的检测方法和装置
[0001]本说明书一个或多个实施例涉及互联网
,尤其涉及一种网络数据自动获取器攻击的检测方法和装置。
技术介绍
[0002]网络数据自动获取器又称网络爬虫,是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。然而,网络爬虫的泛滥会构成爬虫攻击,导致服务器承受大量的访问请求,损耗服务器的资源,给正常用户的访问带来了阻碍,因此如何检测爬虫攻击是一个亟待解决的技术问题。
[0003]一方面,传统的爬虫攻击的检测关注访问流量在报文层面或会话层面的特征,例如检测IP地址的访问频率、检测请求头格式、检测cookie(储存在用户本地终端上的数据)等方式,然而这些都是通过先总结爬虫流量的静态特征,然后判断接收到的特定流量是否符合这些静态特征的规则检测方式,虽然可以在规则角度上识别是否遭遇了爬虫攻击,但由于缺乏整体性视角且爬虫流量的静态特征难以穷尽,因此很容易导致漏检。另一方面,虽然也可以通过检测流量波动的方式检测是否可能遭遇了爬虫攻击,但传统的检测流量波动的方式无法区分流量波动 ...
【技术保护点】
【技术特征摘要】
1.一种网络数据自动获取器攻击的检测方法,应用于服务器,所述服务器维护有报警阈值以及至少两个特征维度下的特征距离对应的截断阈值,所述方法包括:获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离;在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值;基于重新确定的至少两个特征距离确定流量异常指数,在所述流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。2.根据权利要求1所述的方法,所述服务器维护的任一特征维度下的特征距离对应的截断阈值正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史网络数据自动获取器攻击之间的关联性。3.根据权利要求1所述的方法,所述计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离,包括:基于所述至少两个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离。4.根据权利要求1所述的方法,所述基于重新确定的至少两个特征距离确定流量异常指数,包括:基于重新确定的至少两个特征距离确定初始流量异常指数;生成衰减因子,并按照所述衰减因子对所述初始流量异常指数进行调整以生成所述流量异常指数,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数。5.根据权利要求...
【专利技术属性】
技术研发人员:李祥祥,高欢芝,夏威,李康,
申请(专利权)人:拉扎斯网络科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。