本发明专利技术公开了网络流量异常检测方法、装置、设备及介质,该方法包括提取特征数据集;对特征数据集进行聚类;为核心聚类对象创建初始类;找到全部核心聚类对象,得到确定类;检测特征数据集是否存在点不属于任一确定类,若是则判定为异常点。本发明专利技术可以实现对网络流量数据增量式、无监督的异常检测,使之更加符合实际网络流量数据量大和短时间内产生大量数据的情况。情况。情况。
【技术实现步骤摘要】
网络流量异常检测方法、装置、设备及介质
[0001]本专利技术属于流量检测
,尤其涉及网络流量异常检测方法、装置、设备及介质。
技术介绍
[0002]异常检测在现代大规模分布式系统的管理中起着重要作用,记录系统运行时信息的日志广泛用于异常检测。传统上通常使用关键字搜索或规则匹配等方法手动检查日志。然而数据量的增长以及日志复杂性使得人工检测难以进行。因此提出了许多网络流量异常检测方法。网络流量异常检测的目的是找到流量日志中和大多数数据不同的数据,并将这些离群的数据点其视为异常。
[0003]传统的流量异常检测算法一般分为基于统计学的方法、基于机器学习的方法和基于深度学习的方法。但基于统计学的方法判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提(样本>10),当测量次数少的情形用准则剔除粗大误差是不够可靠的。而且这种方法比较简单死板,过于绝对,会存在不少漏检和误检的情况。基于机器学习的方法对于有监督机器学习方法,由于有监督学习需要数据标签,而网络流量数据量极大,存在人工标记耗时耗力的问题,所以使用机器学习进行异常检测通常采用无监督的方法。而对于无监督机器学习方法,每次运行算法都需要输入全部的数据,对于短时间内产生大量的网络流量难以及时得出异常检测结果,并且无法进行持续的增量学习。基于深度学习的方法需要提供带有标记的数据集。通常的流量日志中异常通常是极少数,使用深度学习需要大量的的计算资源,同时也没有标签可供网络训练。
技术实现思路
[0004]本专利技术的目的在于,为克服现有技术缺陷,提供了网络流量异常检测方法、装置、设备及介质,针对网络流量异常检测对于实时性的要求,通过增量式学习做到及时响应,从而适应网络流量异常检测的实际场景需求。
[0005]本专利技术目的通过下述技术方案来实现:
[0006]一种网络流量异常检测方法,所述方法包括:
[0007]响应于按批次获取的网络流量,对所述网络流量进行解析提取特征信息得到特征数据集;
[0008]对从第一批网络流量获取的特征数据集进行初始聚类,对后续获取的网络流量进行增量聚类,所述初始聚类的超参数包括聚类半径和最少聚类对象数量;
[0009]判断每一个聚类对象中的聚类半径领域内是否至少包含最少聚类对象数量个对象,若是则为每一个聚类半径领域内至少包含最少聚类对象数量个对象的聚类对象创建初始类;
[0010]判断每一个聚类半径领域内至少包含最少聚类对象数量个对象的聚类对象的聚类半径领域内中是否有其他聚类对象的聚类半径领域内至少包含最少聚类对象数量个对
象,若是则将所述其他聚类对象追加到所述初始类中,直至没有新的对象可以追加,得到确定类;
[0011]检测所述特征数据集是否存在点不属于任一确定类,若是则判定为异常点。
[0012]进一步的,所述增量聚类包括通过后续获取的网络流量对所述初始聚类的结果进行更新。
[0013]进一步的,所述通过后续获取的网络流量对所述初始聚类的结果进行更新具体包括:
[0014]获取新的网络流量的特征数据集;
[0015]将所述新的网络流量的特征数据集中的每一条数据和已有聚类中的记录进行比较,更新所述增量式聚类的结果,所述更新包括插入新的异常点、创建新的聚类、插入已有聚类和聚类合并。
[0016]进一步的,所述增量聚类还包括获取新的网络流量的特征数据集后将前一个特征数据集中的数据从聚类中删除。
[0017]进一步的,所述将前一个特征数据集中的数据从聚类中删除具体包括:
[0018]将前一个特征数据集中的数据从聚类中逐条删除,并对聚类结果进行修改,所述修改包括删除异常点、删除聚类、从已有聚类中删除和聚类分裂。
[0019]进一步的,所述方法还包括每次检测到异常点信息时进行告警。
[0020]进一步的,所述特征信息包括持续时间、出流量大小和入流量大小。
[0021]另一方面,本专利技术还提供了一种网络流量异常检测装置,所述装置包括:
[0022]特征提取模块,所述特征提取模块响应于按批次获取的网络流量,对所述网络流量进行解析提取特征信息得到特征数据集;
[0023]聚类模块,对从第一批网络流量获取的特征数据集进行初始聚类,对后续获取的网络流量进行增量聚类,所述初始聚类的超参数包括聚类半径和最少聚类对象数量;
[0024]初始类创建模块,所述初始类创建模块判断每一个聚类对象中的聚类半径领域内是否至少包含最少聚类对象数量个对象,若是则为每一个聚类半径领域内至少包含最少聚类对象数量个对象的聚类对象创建初始类;
[0025]确定类创建模块,所述确定类创建模块判断每一个聚类半径领域内至少包含最少聚类对象数量个对象的聚类对象的聚类半径领域内中是否有其他聚类对象的聚类半径领域内至少包含最少聚类对象数量个对象,若是则将所述其他聚类对象追加到所述初始类中,直至没有新的对象可以追加,得到确定类;
[0026]异常点检测模块,所述异常点检测模块检测所述特征数据集是否存在点不属于任一确定类,若是则判定为异常点。
[0027]另一方面,本专利技术还提供了一种计算机设备,计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述的任意一种网络流量异常检测方法。
[0028]另一方面,本专利技术还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述的任意一种网络流量异常检测方法。
[0029]本专利技术的有益效果在于:
[0030](1)本专利技术将增量学习应用到网络流量异常检测中,解决了对于动态数据的异常检测问题,避免了传统方法产生的大量时间开销和重复计算。
[0031](2)本专利技术通过增量式学习满足网络流量异常检测对于实时性的要求,能够做到对新数据及时检测,更加适用于网络流量的真实场景。
[0032](3)本专利技术通过动态地插入和删除数据,能够及时删除过时的数据,保证数据集大小始终保持在较小的水平,节省大量存储资源。
[0033](4)本专利技术通过无监督的聚类算法,避免了繁杂的数据标记工作。
附图说明
[0034]图1是本专利技术实施例提供的网络流量异常检测方法流程框图;
[0035]图2是本专利技术实施例提供的网络流量异常检测方法流程示意图;
[0036]图3是本专利技术实施例提供的网络流量异常检测装置结构框图。
具体实施方式
[0037]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0038]基于本专利技术中本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种网络流量异常检测方法,其特征在于,所述方法包括:响应于按批次获取的网络流量,对所述网络流量进行解析提取特征信息得到特征数据集;对从第一批网络流量获取的特征数据集进行初始聚类,对后续获取的网络流量进行增量聚类,所述初始聚类的超参数包括聚类半径和最少聚类对象数量;判断每一个聚类对象中的聚类半径领域内是否至少包含最少聚类对象数量个对象,若是则为每一个聚类半径领域内至少包含最少聚类对象数量个对象的聚类对象创建初始类;判断每一个聚类半径领域内至少包含最少聚类对象数量个对象的聚类对象的聚类半径领域内中是否有其他聚类对象的聚类半径领域内至少包含最少聚类对象数量个对象,若是则将所述其他聚类对象追加到所述初始类中,直至没有新的对象可以追加,得到确定类;检测所述特征数据集是否存在点不属于任一确定类,若是则判定为异常点。2.如权利要求1所述的网络流量异常检测方法,其特征在于,所述增量聚类包括通过后续获取的网络流量对所述初始聚类的结果进行更新。3.如权利要求1所述的网络流量异常检测方法,其特征在于,所述通过后续获取的网络流量对所述初始聚类的结果进行更新具体包括:获取新的网络流量的特征数据集;将所述新的网络流量的特征数据集中的每一条数据和已有聚类中的记录进行比较,更新所述增量式聚类的结果,所述更新包括插入新的异常点、创建新的聚类、插入已有聚类和聚类合并。4.如权利要求2所述的网络流量异常检测方法,其特征在于,所述增量聚类还包括获取新的网络流量的特征数据集后将前一个特征数据集中的数据从聚类中删除。5.如权利要求4所述的网络流量异常检测方法,其特征在于,所述将前一个特征数据集中的数据从聚类中删除具体包括:将前一个特征数据集中的数据从聚类中逐条删除,并对聚类结果进行修改,所述修改包括删除异常点、删除聚类、...
【专利技术属性】
技术研发人员:黎臻,张超,焦哲,高建,张玄,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。