基于流量数据样本统计和平衡信息熵估计的网络异常检测方法技术

技术编号:20394904 阅读:32 留言:0更新日期:2019-02-20 04:57
本发明专利技术公开了基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,本发明专利技术属于网络安全技术领域,包括流量数据采集、统一数据格式、数据特征分析和网络异常判断步骤是一种基于集网络流量小样本数据特征,使用样本信息熵的平衡方法来估计总体情况,识别网络中的DoS和Port Scan攻击拒的检测方法。

【技术实现步骤摘要】
基于流量数据样本统计和平衡信息熵估计的网络异常检测方法
本专利技术属于计算机网络安全
,具体涉及基于流量数据样本统计和平衡信息熵估计的网络异常检测方法。
技术介绍
网络行为异常检查(NBAD,networkbehavioranomalydetection)能连续监测专有网络的不寻常事件或趋势。网络行为异常检查是网络行为分析(NBA)的主要部分。网络行为异常检查(NBAD,networkbehavioranomalydetection)能连续监测专有网络的不寻常事件或趋势。网络行为异常检查是网络行为分析(NBA)的主要部分,除了传统反威胁应用程序(如防火墙、防病毒软件和间谍软件检测软件)提供的安全之外,网络行为分析也提供安全保护。网络行为异常检查(NBAD)程序实时跟踪关键网络特性,如果检测到一个不寻常事件或趋势,就生成显示威胁存在的警报。网络特性的例子有流量、带宽使用和协议使用。网络行为异常检查程序还可以监视个人网络用户的行为。为了使网络行为异常检查达到最佳效果,就必须在一段时间内建立正常网络或用户行为的基准。一旦某些参数被定义为是正常的,那么违背一个或多个参数就会被标记为异常。除了使用传统的防火墙和恶意软件检测软件外,也应使用网络行为异常检查(NBAD)。一些厂商已开始认识到这一事实,并且将网络行为分析或网络行为异常检查作为其网络安全套件的主要组成部分。熵是统计力学和信息论中衡量统计总体信息内容或随机变量不确定度的重要函数,目前常见的熵家族包括香农信息熵、Rényi熵及Tsallis熵。一般给定随机问题的全概率分布是未知的,大多数情况下是用小数据集来推断总体的分布情况。理论上由于熵具有非线性特性,对于使用小数据样本进行总体估计,不可能同时减小系统性偏差和统计方差,该问题在香农信息熵、Rényi熵及Tsallis熵中都同样存在。香农信息熵是Rényi熵的特例,其使用范围广、接受度高且计算相对容易。流量数据采集,广播式以太网的特征是广播数据,即在广播域内某个位置部署采集点能获取到该域所有数据流量。目前大多数基于IP的园区以太网属于交换式以太网,采集点位置选择、采集方式等很重要,否则无法获取到感兴趣的流量数据,具体需根据网络类型、拓扑设计采集方案。以一般的三层交换式以太网络为例,拒绝服务攻击一般针对服务器等重要资源,采集点应部署服务器所在的核心层,可采用网络端口镜像方式;端口扫描攻击应部署在靠近恶意终端所在的网络接入层,采用端口镜像方式,如果无法获知恶意终端的分布,采集点可部署在网络分布层。网络流量特征选择,针对不同的网络攻击方式应选取不同的网络流量特征:如数据包IP地址-源端口-目的IP地址-目的端口-协议、数据包间隔时间、流量的大小、包长的信息、协议的信息、端口流量的信息、TCP标志位的信息、SYN包的个数等,这些特征比较详细地描述了网络流量的运行状态。在总体分布未知的网络流量数据中,通常由于数据采集的时间短,一般判断采集到的数据属于小样本数据集,根据前面的统计理论背景知识,如果直接采用样本信息熵公式估计总体存在偏离性,因此不能直接使用。
技术实现思路
本专利技术的目的在于提供一种基于集网络流量小样本数据特征,使用样本信息熵的平衡方法来估计总体情况,识别网络中的DoS和PortScan攻击拒的检测方法。本专利技术的目的是通过以下技术方案实现的:基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,其特征在于,包括以下步骤:流量数据采集,采集核心层进出端口和恶意终端所在接入层进出端口的流量数据,同时采集公开基准数据;统一数据格式,将采集流量数据获取的数据统一为JSON格式;数据特征分析,对数据格式统一后的流量数据特征,采用信息熵的平衡估计方法来估计总体分布信息;网络异常判断,基于网络流量数据特征分析得到的信息,采取K-S统计检验的方法计算出流量数据采集时得到的实际流量数据所构成的数据集的平衡信息熵估计值,并对其进行归一化处理得到相对系数用于判断流量数据的聚合程度并判断网络是否存在异常。所述流量数据采集,是使用开源工具TCPtrace、Wireshark、Ethereal、Snort或商业软硬件系统CiscoNetflow、网络时间机器NTM、华为Netstream中的一种或多种,用串联、旁挂或端口镜像的方式采集获取得到核心层进出端口和恶意终端所在接入层进出端口的流量数据以及公开基准数据。所述公开基准数据为覆盖了Probe,DoS,R2L,U2R和Data攻击方式的DARPA入侵数据集。这里的DARPA入侵数据集即美国防部高级计划研究署入侵数据集,DARPA资助了入侵检测系统IDS的开发工作,MIT林肯实验室对其进行了评估,这是网络异常检测领域的开创性研究工作,对学界及工业界产生了重要影响,之后该领域众多科研工作都基于此展开。入侵数据集Intrusiondataset是该工作的重要成果之一,目前虽有研究指出该数据集可能过时或存在其他问题,但其研究方法等仍具有重要指导意义。该数据集通过互联网可公开访问,本专利以此为基准数据集。所述统一数据格式,采集到的流量数据包括IP数据包的header包头和payload载荷,只选取Header包头的特征在离线状态下转换为JSON格式。国际互联网工程任务组IETF的RFC791等对IP数据包header格式进行了定义:IP数据包由header及payload组成,header包括IP协议版本号、长度、协议号、源和目的IP地址等字段信息,payload指IP数据包的数据载荷信息。所述数据特征分析,信息熵的平衡估计方法估计总体分布信息的具体方法如下:设离散随机变量X的取值范围为字母表A、集合大小为N,则使用香农信息熵带入得到信息熵平衡估计初值随机变量X在字母表A和集合N相等时取得,信息熵平衡估计值最大值用公式(1)得到的信息熵平衡估计初值除以公式(2)得到的信息熵平衡估计值最大值得到规范化的信息熵平衡估计值;用公式(3)对信息熵平衡估计值进行归一化处理计算得到平衡熵估计值的相对系数r,优选地,相对系数r计算过程可参见实例步骤3。相对系数r反应了特征值的聚合程度,r越趋近于0,说明特征值X聚集程度高,现实中假设X为目的IP地址,则可能出现大量源IP地址访问固定目的IP地址的数据流,考虑拒绝服务(DoS)攻击情况。r趋近于1,说明特征值较分散,现实中假设X为源IP地址,可能出现的情况是端口扫描(PortScan)攻击。所述网络异常判断,K-S统计检验的具体方法如下:用公开获取的数据的集作为参考数据集的分布,用于与获取到的实际流量数据进行比较,采用两样本K-S检验方法,用于判断在显著性水平。设置置信区间Dm,n:,且其中为流量数据采集中实际采集的数据计算出的信息熵平衡估计值,优选地,计算方法与数据特征分析中的方法相同;Href(x)为公开获取的数据计算得到的信息熵,数据集中带有异常特征,可直接计算信息熵作为基准;supx为上确界函数;m,n分别为采集的实际流量数据的集和基准数据的集的样本大小;设置零假设检验条件,所述零假设检验条件为假设参考数据和实际流量数据的平衡信息熵不存在相似性,显著性水平为ɑ,如果则在显著性水平ɑ下拒绝零假设。举例如,假定上述置信区间零假设是正确的,即参本文档来自技高网
...

【技术保护点】
1.基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,其特征在于,包括以下步骤:流量数据采集,采集核心层进出端口和恶意终端所在接入层进出端口的流量数据,同时采集公开基准数据;统一数据格式,将采集流量数据获取的数据统一为JSON格式;数据特征分析,对数据格式统一后的流量数据特征,采用信息熵的平衡估计方法来估计总体分布信息;网络异常判断,基于网络流量数据特征分析得到的信息,采取K‑S统计检验的方法计算出流量数据采集时得到的实际流量数据所构成的数据集的平衡信息熵估计值,并对其进行归一化处理得到相对系数用于判断流量数据的聚合程度并判断网络是否存在异常。

【技术特征摘要】
1.基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,其特征在于,包括以下步骤:流量数据采集,采集核心层进出端口和恶意终端所在接入层进出端口的流量数据,同时采集公开基准数据;统一数据格式,将采集流量数据获取的数据统一为JSON格式;数据特征分析,对数据格式统一后的流量数据特征,采用信息熵的平衡估计方法来估计总体分布信息;网络异常判断,基于网络流量数据特征分析得到的信息,采取K-S统计检验的方法计算出流量数据采集时得到的实际流量数据所构成的数据集的平衡信息熵估计值,并对其进行归一化处理得到相对系数用于判断流量数据的聚合程度并判断网络是否存在异常。2.如权利要求1所述的基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,其特征在于:所述流量数据采集,是使用开源工具TCPtrace、Wireshark、Ethereal、Snort或商业软硬件系统CiscoNetflow、网络时间机器NTM、华为Netstream中的一种或多种,用串联、旁挂或端口镜像的方式采集获取得到核心层进出端口和恶意终端所在接入层进出端口的流量数据以及公开基准数据。3.如权利要求1或2所述的基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,其特征在于:所述公开基准数据为覆盖了Probe,DoS,R2L,U2R和Data攻击方式的DARPA入侵数据集。4.如权利要求1所述的基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,其特征在于:所述统一数据格式,采集到的流量数据包括IP数据包的header包头和payload载荷,只选取Header包头的特征在离线状态下转换为JSON格式。5.如权利要求1所述的基于流量数据样本统计和平衡信息熵估计的网络异常检测方法,其特征在于,所述数据特征分析,信息熵的平衡估计方法估计总体分布信息的具体方法如下:设离散随机变量X的取值范围为字母表A、集合大小为N,则使用香农信息熵带入得到信息熵平衡估计初值随机变量X在字母表A和集合N相等时取得,信息熵平衡估计值最大值用公式(1)得到的信息熵平衡估计初...

【专利技术属性】
技术研发人员:周琨汪文勇唐勇黄鹂声张骏
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1