一种网络数据自动获取器攻击检测的方法和装置制造方法及图纸

技术编号:34041554 阅读:20 留言:0更新日期:2022-07-06 13:36
本说明书一个或多个实施例提供一种网络数据自动获取器攻击检测的方法和装置,所述方法应用于服务器,所述服务器维护有报警阈值,所述方法包括:获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;计算第一流量样本集和第二流量样本集分别在至少一个特征维度下的特征距离,并基于所述至少一个特征维度下的特征距离确定流量异常指数;生成衰减因子,并按照所述衰减因子对所述流量异常指数进行调整,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数;在调整后的流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。动获取器攻击。动获取器攻击。

A method and device for attack detection of automatic network data acquisition device

【技术实现步骤摘要】
一种网络数据自动获取器攻击检测的方法和装置


[0001]本说明书一个或多个实施例涉及互联网
,尤其涉及一种网络数据自动获取器攻击检测的方法和装置。

技术介绍

[0002]网络数据自动获取器又称网络爬虫,是一种按照一定的规则自动地抓取互联网信息的程序或者脚本。然而,网络爬虫的泛滥会构成爬虫攻击,导致服务器承受大量的访问请求,损耗服务器的资源,给正常用户的访问带来了阻碍,因此如何检测爬虫攻击是一个亟待解决的技术问题。
[0003]一方面,传统的爬虫攻击的检测关注访问流量在报文层面或会话层面的特征,例如检测IP地址的访问频率、检测请求头格式、检测cookie(储存在用户本地终端上的数据)等方式,然而这些都是通过先总结爬虫流量的静态特征,然后判断接收到的特定流量是否符合这些静态特征的规则检测方式,虽然可以在规则角度上识别是否遭遇了爬虫攻击,但由于缺乏整体性视角且爬虫流量的静态特征难以穷尽,因此很容易导致漏检。另一方面,虽然也可以通过检测流量波动的方式检测是否可能遭遇了爬虫攻击,但传统的检测流量波动的方式无法区分流量波动是由爬虫攻击导致还是正常访问导致,因此简单地把流量波动的现象归结为爬虫攻击,将很容易导致误检。

技术实现思路

[0004]有鉴于此,本说明书一个或多个实施例提供一种网络数据自动获取器攻击检测的方法和装置。
[0005]为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
[0006]根据本说明书一个或多个实施例的第一方面,提出了一种网络数据自动获取器攻击检测的方法,应用于服务器,所述服务器维护有报警阈值,所述方法包括:
[0007]获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;
[0008]计算第一流量样本集和第二流量样本集分别在至少一个特征维度下的特征距离,并基于所述至少一个特征维度下的特征距离确定流量异常指数;
[0009]生成衰减因子,并按照所述衰减因子对所述流量异常指数进行调整,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数;
[0010]在调整后的流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。
[0011]可选的,所述计算第一流量样本集和第二流量样本集分别在至少一个特征维度下的特征距离,包括:
[0012]基于所述至少一个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并
以此生成第一流量样本集在所述任一特征维度下的样本比例分布;
[0013]基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;
[0014]将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离。
[0015]可选的,所述任一特征维度对应的分类策略包括:
[0016]按照所述任一特征维度包含的预设类别对待分类流量样本集包含的流量样本进行分类,将分类得到的各类别按照包含样本数由高至低的顺序进行排序,将排名落后于预设名次的所有类别合并为同一类别。
[0017]可选的,所述生成衰减因子,包括:
[0018]分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,其中,第一衰减因子正相关于第一流量样本集的样本数,第二衰减因子正相关于第二流量样本集的样本数;
[0019]基于第一衰减因子与第二衰减因子生成所述衰减因子。
[0020]可选的,所述分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,包括:
[0021]将第一流量样本集的样本数输入衰减因子生成函数后,将第一趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第一衰减因子;
[0022]将第二流量样本集的样本数输入所述衰减因子生成函数后,将第二趋势关注度因子与所述衰减因子生成函数的输出值中较大的一项确定为第二衰减因子;
[0023]所述基于第一衰减因子与第二衰减因子生成所述衰减因子,包括:
[0024]将第一衰减因子与第二衰减因子的乘积确定为所述衰减因子。
[0025]可选的,第一趋势关注度因子与第二趋势关注度因子中的任一趋势关注度因子为零或趋近于零,第一趋势关注度因子与第二趋势关注度因子中的另一趋势关注度因子大于零,且所述另一趋势关注度因子与所述任一趋势关注度因子的比值超过预设数值。
[0026]可选的,所述服务器维护有至少两个特征维度下的特征距离对应的截断阈值;所述计算第一流量样本集和第二流量样本集分别在至少一个特征维度下的特征距离,并基于所述至少一个特征维度下的特征距离确定流量异常指数,包括:
[0027]计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离;
[0028]在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况下,将所述任一特征距离的数值重新确定为所述任一特征距离对应的截断阈值;
[0029]基于重新确定的至少两个特征距离确定所述流量异常指数。
[0030]可选的,所述服务器维护的任一特征维度下的特征距离对应的截断阈值正相关于:所述服务器接收到的历史流量样本在所述任一特征维度下的单维流量异常指数与历史网络数据自动获取器攻击之间的关联性。
[0031]可选的,所述基于重新确定的所述至少两个特征距离确定所述流量异常指数,包
括:
[0032]将所述重新确定的至少两个特征距离的加权和确定为所述流量异常指数;或者,
[0033]将所述重新确定的至少两个特征距离的加权和,与所述至少两个特征维度下的特征距离对应的截断阈值的加权和的商确定为所述流量异常指数。
[0034]可选的,所述确定第一时间段或第二时间段内存在网络数据自动获取器攻击,包括:
[0035]在第一流量样本集和第二流量样本集中的任一流量样本集的样本数比另一流量样本集的样本数多预设数量的情况下,确定所述服务器在接收到所述任一流量样本集的时间段内存在网络数据自动获取器攻击。
[0036]可选的,还包括:
[0037]在计算第一流量样本集和第二流量样本集分别在所述至少一个特征维度下的特征距离之前,删除第一流量样本集和第二流量样本集包含的已识别的网络数据自动获取器流量样本。
[0038]可选的,第一时间段与第二时间段为相同的时间段,第一流量样本集包含的流量样本为匿名态和登录态中的任一态,第二流量样本集包含的流量样本为匿名态和登录态中的另一态;或者,...

【技术保护点】

【技术特征摘要】
1.一种网络数据自动获取器攻击检测的方法,应用于服务器,所述服务器维护有报警阈值,所述方法包括:获取所述服务器在第一时间段内接收到的第一流量样本集以及在第二时间段内接收到的第二流量样本集;计算第一流量样本集和第二流量样本集分别在至少一个特征维度下的特征距离,并基于所述至少一个特征维度下的特征距离确定流量异常指数;生成衰减因子,并按照所述衰减因子对所述流量异常指数进行调整,所述衰减因子正相关于第一流量样本集的样本数和/或第二流量样本集的样本数;在调整后的流量异常指数超过所述报警阈值的情况下,确定第一时间段或第二时间段内存在网络数据自动获取器攻击。2.根据权利要求1所述的方法,所述计算第一流量样本集和第二流量样本集分别在至少一个特征维度下的特征距离,包括:基于所述至少一个特征维度中任一特征维度对应的分类策略,对第一流量样本集包含的流量样本进行分类,获取第一流量样本集包含的流量样本在各类别中所占的比例并以此生成第一流量样本集在所述任一特征维度下的样本比例分布;基于所述任一特征维度对应的分类策略,对第二流量样本集包含的流量样本进行分类,获取第二流量样本集包含的流量样本在各类别中所占的比例并以此生成第二流量样本集在所述任一特征维度下的样本比例分布;将第一流量样本集在所述任一特征维度下的样本比例分布与第二流量样本集在所述任一特征维度下的样本比例分布之间的群体稳定性指标,确定为第一流量样本集和第二流量样本集在所述任一特征维度下的特征距离。3.根据权利要求1所述的方法,所述生成衰减因子,包括:分别基于第一流量样本集的样本数和第二流量样本集的样本数确定第一衰减因子和第二衰减因子,其中,第一衰减因子正相关于第一流量样本集的样本数,第二衰减因子正相关于第二流量样本集的样本数;基于第一衰减因子与第二衰减因子生成所述衰减因子。4.根据权利要求1所述的方法,所述服务器维护有至少两个特征维度下的特征距离对应的截断阈值;所述计算第一流量样本集和第二流量样本集分别在至少一个特征维度下的特征距离,并基于所述至少一个特征维度下的特征距离确定流量异常指数,包括:计算第一流量样本集和第二流量样本集分别在所述至少两个特征维度下的至少两个特征距离;在所述至少两个特征距离中任一特征距离超过所述任一特征距离对应的截断阈值的情况...

【专利技术属性】
技术研发人员:李祥祥高欢芝夏威李康
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1