网络资产异常检测方法技术

技术编号:30323540 阅读:16 留言:0更新日期:2021-10-09 23:52
本发明专利技术公开了一种网络资产异常检测方法,涉及网络安全技术领域,解决了现有方案中只考虑单个异常情况或者未考虑行为在时序上的异常情况,导致误报率高的技术问题;包括:获取网络资产的时序特征数据、数据预处理、数据构造、构建异常检测模型、异常检测和“正常”数据的进一步挖掘;本发明专利技术同时采集和利用了网络流量中两类特征数据,使得异常检测模型能够更好地学习两类特征,为后续提高异常检测模型的检测精度奠定基础;本发明专利技术使用了基于LSTM

【技术实现步骤摘要】
网络资产异常检测方法


[0001]本专利技术属于网络安全
,具体是网络资产异常检测方法。

技术介绍

[0002]随着当代网络的规模不断扩大,网络内的设备数量、设备类型也随之大规模增长。网络设备在日常的运作过程中,会形成属于自己的网络流量行为基线。当设备由于自身或者外界的原因,使得其行为偏离了自身的行为基线时,该设备就有可能发生了异常情况。因此,如果能准确有效地检测出网络设备的异常情况,不仅有助于入侵等风险行为的发现,还能帮助网络管理人员排查设备自身的问题。
[0003]公开号为CN111049839A的专利技术专利公开了一种异常检测方法、装置、存储介质及电子设备,该方法对安全告警数据进行相应的数据预处理后,使用孤立森林算法进行异常检测,能分离出告警数据中的异常特征。但该方法的不足是,孤立森林算法无法捕捉时间序列信号的前后依赖关系,因此无法实现对序列类型异常数据的长期监测,导致误报率较高。
[0004]陈兴蜀,江天宇,曾雪梅等所著的文献《基于多维时间序列分析的网络异常检测》中,提出了一种基于单位时间段内的统计特征数据,对多个维度特征分别建立ARIMA模型获得特征的偏离值后,用获得的特征偏离值进入机器学习分类器进行分类的异常检测系统。但该系统使用的是单位时间段内的统计特征,丢失了特征的时间序列特性,无法发现诸如序列前后位置变化等异常情况。
[0005]公开号为CN109525567A的专利技术专利提供了一种使用隐马尔可夫模型对序列数据进行异常检测从而检测网络攻击的方法;隐马尔可夫模型(HMM)是一种基于概率统计的生成式模型,对序列的概率建模效果不错。但该模型无法发现长时间序列之间的时序依赖关系,且输入的数据类型为状态序列,无法同时对连续型特征和类别型特征建模,因此应用范围有限。
[0006]上述方案对网络资产异常行为的检测大多数只考虑了单个异常情况或未考虑行为在时序上的异常情况,导致误报率较高。因此,本专利技术提出了一种基于时间序列算法的网络资产异常检测方法,综合利用了多种类型的数据特征和时序特征,有效地降低了网络资产异常检测的误报率。

技术实现思路

[0007]本专利技术提供了网络资产异常检测方法,用于解决现有方案中只考虑单个异常情况或者未考虑行为在时序上的异常情况,导致误报率高的技术问题,本专利技术提出了一种基于时间序列算法的网络资产异常检测方法,综合利用多种类型的数据特征和时序特征解决了上述问题。
[0008]本专利技术的目的可以通过以下技术方案实现:网络资产异常检测方法,包括:
[0009]获取网络资产的时序特征数据;
[0010]对时序特征数据进行数据预处理,并根据预处理结果构造时间序列训练数据;其
中,所述时间序列训练数据包括长时间序列训练数据集和短时间序列训练数据集;
[0011]构建异常检测模型,并完成训练和测试;通过训练之后的异常检测模型进行获取平均重建误差,对平均重建误差进行分析实现网络资产的异常检测,结合多种无监督模型进行数据的进一步挖掘。
[0012]优选的,所述网络资产的所述时序特征数据的获取,包括:
[0013]获取解码的网络流量数据,以IP地址作为网络资产在域内的唯一标识,以单个网络资产作为检测对象;从网络流量数据中筛选目标参数对应的所有流量记录作为检测对象的源数据;其中,所述目标参数包括“源IP”和“目的IP”;
[0014]通过检测对象的源数据获取流量特征;其中,所述流量特征包括但不限于“源

目的”特征值、会话开始时间、会话结束时间、会话时长、协议类型、端口号、上行数据包数量、上行字节数、上行载荷字节数、下行数据包数量、下行字节数、下行载荷字节数、应用类型、应用协议类型;
[0015]在流量特征的基础上,获取检测对象的资产指纹特征;其中,所述资产指纹特征包括但不限于设备品牌、设备型号、设备操作系统、设备操作系统版本、设备类型、开发语言、开放的端口类型;
[0016]以检测对象作为统计聚合对象,分析统计检测对象过去S1和过去S2时间段内的所有特征;其中,所述所有特征均可分为数值型特征和类别型特征,S1和S2均为大于0的时间常数,且S1和S2不相等。
[0017]优选的,所述数据预处理用于对所有特征进行预处理,包括:
[0018]针对数值型特征:通过数据标准化方法对数值型特征进行标准化处理;其中,所述数据标准化方法包括Z

Score标准化、最大最小标准化和小数定标标准化;
[0019]针对类别型特征:对其中一个类别特征进行独热编码获取类别时间序列,对类别时间序列通过等长度的时间窗口步长切分,并作为Word2vec模型的训练数据,自定义Word2vec模型的输出维度;其中,Word2vec模型中的训练算法可使用CBOW算法,通过CBOW算法训练得到更低维度的稠密向量特征代替原有的独热编码;
[0020]将所有类别型特征都通过Word2vec模型建模嵌入将高维稀疏特征转化为低维稠密特征。
[0021]优选的,构造所述时间序列训练数据之前,还包括:
[0022]将标准化之后的数值型特征和经过Word2vec模型建模嵌入的类别型特征进行拼接,获取多维连续型时间序列特征。
[0023]优选的,所述时间序列训练数据的构造包括:
[0024]将多维连续型时间序列特征标记为多维特征数据,并获取多维特征数据的维度(m,n);其中,m为多维特征数据的总时间序列数,n为经过数据预处理的特征维度数;
[0025]取两种不同大小的时间序列长度K1和K2,以及步长S;其中,K1与K2至少相差一个数量级,步长S的取值通常为1;
[0026]针对多维特征数据(m,n),每隔步长S,取K1条数据作为一段时间序列特征数据t1,则可获得三维长序列训练数据(t1,t2,

,tj1);其中,三维长序列训练数据(t1,t2,

,tj1)中包含j1条多维特征数据;
[0027]得到三维维度为(j1,K1,n)的长时间序列训练数据集;同理,可获取三维维度为
(j2,K2,n)的短时间序列训练数据集;其中,符号表示向下取整。
[0028]优选的,j1条所述多维特征数据中的每条多维特征数据具体表示为:其中,f为多维特征数据。
[0029]优选的,所述异常检测模型具体为LSTM

AE网络模型;分别通过短时间序列训练数据集和长时间序列训练数据集对LSTM

AE网络模型进行训练和测试,将训练完成的两个LSTM

AE网络模型分别标记为短时间序列检测模型和长时间序列检测模型;
[0030]通过LSTM

AE网络模型计算输入数据和输出数据的重建误差矩阵;其中,重建误差矩阵的获取公式为:E=X1

X2,X1为输入数据,X2为输出数据。
[0031]优选的,所述平均重建误差包括长序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.网络资产异常检测方法,其特征在于,包括:获取网络资产的时序特征数据;对时序特征数据进行数据预处理,并根据预处理结果构造时间序列训练数据;其中,所述时间序列训练数据包括长时间序列训练数据集和短时间序列训练数据集;构建异常检测模型,并完成训练和测试;通过训练之后的异常检测模型进行获取平均重建误差,对平均重建误差进行分析实现网络资产的异常检测,结合多种无监督模型进行数据的进一步挖掘。2.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述网络资产的所述时序特征数据的获取,包括:获取解码的网络流量数据,以IP地址作为网络资产在域内的唯一标识,以单个网络资产作为检测对象;从网络流量数据中筛选目标参数对应的所有流量记录作为检测对象的源数据;其中,所述目标参数包括“源IP”和“目的IP”;通过检测对象的源数据获取流量特征;在流量特征的基础上,获取检测对象的资产指纹特征;以检测对象作为统计聚合对象,分析统计检测对象过去S1和过去S2时间段内的所有特征;其中,所述所有特征均可分为数值型特征和类别型特征,S1和S2均为大于0的时间常数,且S1和S2不相等。3.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述数据预处理用于对所有特征进行预处理,包括:针对数值型特征:通过数据标准化方法对数值型特征进行标准化处理;其中,所述数据标准化方法包括Z

Score标准化、最大最小标准化和小数定标标准化;针对类别型特征:对其中一个类别特征进行独热编码获取类别时间序列,对类别时间序列通过等长度的时间窗口步长切分,并作为Word2vec模型的训练数据,自定义Word2vec模型的输出维度;将所有类别型特征都通过Word2vec模型建模嵌入将高维稀疏特征转化为低维稠密特征。4.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述时间序列训练数据的构造包括:将多维连续型时间序列特征标记为多维特征数据,并获取多维特征数据的维度(m,n);其中,m为多维特征数据的总时间序列数,n为经过数据预处理的特征维度数;取两种不同大小的时间序列长度K1和K2,以及步长S;其中,K1与K2至少相差一个数量级,步长S的取值通常为1;针对多维特征数据(m,n),每隔步长S,取K1条数据作为一段时间序列特征数据t1,则可获得三维长序列训练数据(t1,t2,

,tj1);其中,三维长序列训练数据(t1,t2,

,tj1)中包含j1条多维特征数据;得到三维维度为(j1,K1,n)的长时间序列训练数据集;同理,可获取三维维度为(j2,K2,n)的短时间序列训练数据集;其中,5.根据权利要求4所述的网络资产异常检测方法,其特征在于,j1条所述多维特征数据
中的每条多维特征数据具体表示为:其中,f为多维特征数据。6.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述异常检测模型具体为LSTM

AE网络模型;分别通过短...

【专利技术属性】
技术研发人员:邹凯陈凯枫
申请(专利权)人:广州天懋信息系统股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1