一种异常流量数据的检测方法及系统技术方案

技术编号:19327722 阅读:29 留言:0更新日期:2018-11-03 14:34
本发明专利技术实施例提供一种异常流量数据的检测方法及系统。方法包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取任一条流量数据对应的评分;若评分大于预设异常门限,则判定任一条流量数据为异常流量数据。本发明专利技术实施例提供的方法及系统,通过采用非监督式机器学习聚类算法中的主成分分析法和自动编码器进行异常流量数据的检测,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。

A method and system for detecting abnormal traffic data

The embodiment of the invention provides a detection method and system for abnormal traffic data. The method includes: input the characteristics of any traffic data in the data packet to be detected into the trained automatic encoder model or principal component analysis model to get the corresponding score of any traffic data; if the score is greater than the preset abnormal threshold, then determine any traffic data as abnormal traffic data. The method and system provided by the embodiment of the present invention can detect abnormal traffic data online or offline by using principal component analysis method in unsupervised machine learning clustering algorithm and automatic encoder, and has a wider application. Moreover, the use of machine learning algorithm to detect abnormal traffic data in the network can avoid the high filtering error caused by human factors in the process of screening, so that the network can take appropriate actions in advance to reduce the probability of network attacks and user privacy leaks.

【技术实现步骤摘要】
一种异常流量数据的检测方法及系统
本专利技术实施例涉及网络安全
,尤其涉及一种异常流量数据的检测方法及系统。
技术介绍
当今网络技术发展迅猛,网络每天都会产生数亿兆级别的流量,网络流量检测关系着网络安全和用户隐私安全等多方面问题,因而越来越受到人们的关注。网络异常流量检测是网络安全领域中一个非常重要且热门的研究方向。网络异常流量检测是指从大量混合的网络流量数据中把具有网络攻击行为的异常流量分离出来以区别于正常行为的流量数据。网络安全中的异常流量检测要求检测系统能够快速准确地检测出网络中的异常流量,同时保证能够对在线流量实时检测尤为重要。针对目前现有的异常流量检测方法,其很难进行在线检测,同时当网络发生新的攻击行为时,现有的异常流量检测方法很难将其检测出来。
技术实现思路
本专利技术实施例提供一种异常流量数据的检测方法及系统,用以解决现有技术中无法快速准确地检测出网络中的异常流量数据且无法对在线流量数据进行实时检测的缺陷,提高了异常流量数据检测的效率和准确率,并能够对在线流量数据进行实时检测。本专利技术实施例提供一种异常流量数据的检测方法,包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。本专利技术实施例提供一种异常流量数据的检测系统,包括:特征输入模块,用于将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;异常流量数据判定模块,用于若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。本专利技术实施例提供一种异常流量数据的检测设备,包括存储器和处理器,所述处理器和所述存储器通过总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述的方法。本专利技术实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的方法。本专利技术实施例提供的一种异常流量数据的检测方法及系统,通过采用非监督式机器学习聚类算法中的主成分分析法和自动编码器进行异常流量数据的检测,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种异常流量数据的检测方法实施例流程图;图2为本专利技术一种异常流量数据的检测设备实施例结构框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术一种异常流量数据的检测方法实施例流程图,如图1所示,该方法包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分。若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。具体地,自动编码器模型属于神经网络的一种,主成分分析模型是一种运用主成分分析统计方法的模型。通过对自动编码器模型进行训练,生成训练好的自动编码器模型,通过对主成分分析模型进行训练,生成训练好的主成分分析模型。在待检测流量数据包中,选取任一条流量数据作为目标流量数据,将目标流量数据输入至训练好的自动编码器模型或训练好的主成分分析模型中,可以获取该条目标流量数据对应的评分。若该条目标流量数据的评分大于预设异常门限,则判定该条目标流量数据为异常流量数据。本专利技术实施例提供的方法,通过采用非监督式机器学习聚类算法中的主成分分析法(PCA)和自动编码器(AutoEncoder)进行异常流量数据的检测,不需要事先为每一条流量数据打好标签(异常或者非异常),由算法自己学习流量数据的特征从而分离出异常的流量数据,可以对网络中的流量数据进行在线或者离线的检测,具有更加广泛的应用。并且,利用机器学习算法去检测网络中的异常流量数据,可以大大解放人力资源而且可以避免人为筛选过程中因自身原因造成的高筛选误差,使网络提前采取相应的行为从而降低网络遭受攻击和用户隐私泄露的概率。基于上述实施例,所述将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分,之前还包括:获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征。将所述原始特征进行标准化,以获取所述任一条流量数据的特征。其中,标准化的公式如下:其中,为待检测流量数据包中第k条流量数据的第i个特征,为待检测流量数据包中第k条流量数据的第i个原始特征。具体地,由于流量数据的各维度特征值大小差距较大,有的特征值非常大,而有的特征值非常小,而特征值之间的不平衡严重影响着检测的结果。因此,本专利技术实施例对待检测流量数据包中的每一条流量数据的原始特征进行标准化,其比传统的归一化方法能更加有效的降低特征值差距非常大的不平衡性问题。例如,一个待检测流量数据包中有100条流量数据,对于目标流量数据A的字符特征,都需要对该字符特征进行标准化。标准化的方法如下:获取100条流量数据中每一条流量数据的字符特征的以10为底的对数值,在100个对数值中挑选出一个最大的对数值,将目标流量数据A的字符特征的以10为底的对数值与最大的对数值相除,得到目标流量数据A的字符特征标准化之后的特征。本专利技术实施例提供的方法,通过标准化的公式对任一条流量数据的原始特征进行标准化,再将进行了标准化后的特征输入至训练好的自动编码器模型或训练好的主成分分析模型中,以实现对异常流量数据的检测。相比传统的归一化方法,能更加有效的降低特征值差距非常大的不平衡性问题,提高了异常数据检测的准确率。基于上述实施例,所述获取所述任一条流量数据的原始特征,进一步包括:获取所述任一条流量数据的http请求字段。在所述http请求字段中,获取所述任一条流量数据的请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径中的一种或任意多种,并作为所述任一条流量数据的统计特征。基于n-gram算法,获取所述任一条流量数据的字符特征。将所述统计特征和/或所述字符特征作为所述任一条流量数据的原始特征。具体地,流量数据的统计特征主要包括请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径六大类特征。其中,请求响应码特征包含五个维度分别表示200,403,404,304和others五类响应码类型;本文档来自技高网...

【技术保护点】
1.一种异常流量数据的检测方法,其特征在于,包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。

【技术特征摘要】
1.一种异常流量数据的检测方法,其特征在于,包括:将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分;若所述评分大于预设异常门限,则判定所述任一条流量数据为异常流量数据。2.根据权利要求1所述的方法,其特征在于,所述将待检测流量数据包中的任一条流量数据的特征输入至训练好的自动编码器模型或主成分分析模型中,以获取所述任一条流量数据对应的评分,之前还包括:获取所述任一条流量数据的原始特征,其中,所述原始特征包括统计特征和/或字符特征;将所述原始特征进行标准化,以获取所述任一条流量数据的特征;其中,标准化的公式如下:其中,为待检测流量数据包中第k条流量数据的第i个特征,为待检测流量数据包中第k条流量数据的第i个原始特征。3.根据权利要求2所述的方法,其特征在于,所述获取所述任一条流量数据的原始特征,进一步包括:获取所述任一条流量数据的http请求字段;在所述http请求字段中,获取所述任一条流量数据的请求响应码、响应尺寸、请求参数、请求字符频率熵、请求字符频率和请求路径中的一种或任意多种,并作为所述任一条流量数据的统计特征;基于n-gram算法,获取所述任一条流量数据的字符特征;将所述统计特征和/或所述字符特征作为所述任一条流量数据的原始特征。4.根据权利要求1所述的方法,其特征在于,所述训练好的自动编码器模型的训练步骤如下:构建所述自动编码器模型的第一目标函数;在训练集上对所述第一目标函数进行训练,以使所述第一目标函数最小;其中,构建所述第一目标函数L的公式如下:其中,xi为将第i条流量数据的所有特征,xi'为将第i条流量数据的所有特征输入至自动编码器模型得到的输出向量,h为稀疏参数,hj为隐藏层中第j个神经元的活跃度。5.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:王小娟张勇金磊陈旭由靖文陈墨宋梅
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1