一种流量检测方法及装置制造方法及图纸

技术编号:15441771 阅读:156 留言:0更新日期:2017-05-26 06:49
本发明专利技术实施例公开了一种流量检测方法及装置,所述方法包括:针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;根据所述特征,确定每一条待检测流量的特征向量;利用预设聚类算法,对所述特征向量进行聚类;分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。应用本发明专利技术实施例,提高了异常流量检测的准确率。

Flow detection method and device

The embodiment of the invention discloses a method and apparatus for measuring the flow, the method includes: to include log flow detection feature, obtain each detected flow characteristics; according to the characteristics, determine each detected feature vector flow; using the default clustering algorithm, clustering for the feature vector; respectively using pre classification algorithm in each classification algorithm and training data set, the classification of clustering results; according to the results of classification, each classification algorithm of preset training data and default decision tree algorithm, the detection of each feature vector corresponding to the detected flow is abnormal traffic. With the embodiment of the invention, the accuracy rate of abnormal flow detection is improved.

【技术实现步骤摘要】
一种流量检测方法及装置
本专利技术涉及异常流量检测领域,特别涉及一种流量检测方法及装置。
技术介绍
随着互联网技术的发展,网络应用得到了极大的普及,不明计算机的接入可能会造成网络异常流量的发生。异常流量是造成网络安全的问题之一,它是指对正常网络使用造成不良影响,对目标主机进行控制与破坏的流量模式,常见的形式有木马病毒、网络蠕虫和分布式拒绝服务攻击等。因此,快速从网络中检测出异常流量对于保护网络安全是非常重要的。现有的异常流量检测是通过基于监督学习的机器学习算法进行检测的,具体过程是:采用预先收集的训练数据集(黑名单的流量和白名单的流量)和分类算法对待检测流量进行训练,得到待检测流量的分类结果,再通过分类算法获得待检测流量属于异常流量的概率,根据预测概率检测待检测流量是否为异常流量。基于监督学习主要是通过广泛的学习,因此训练数据集种类的完备直接影响到训练的结果。当未知流量数据出现的时候,因为没有相应的训练数据集进行学习,因而不能准确的将未知流量进行分类,导致异常流量检测准确率较低。
技术实现思路
本专利技术实施例的目的在于提供一种流量检测方法及装置,以提高异常流量检测的准确率。为达到上述目的,本专利技术实施例公开了一种流量检测方法,所述方法包括:针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;根据所述特征,确定每一条待检测流量的特征向量;利用预设聚类算法,对所述特征向量进行聚类;分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。可选的,所述预设聚类算法为:K-means算法。可选的,所述预设分类算法,包括以下算法中一种或几种:逻辑回归算法、支持向量机算法、随机森林算法。可选的,所述预设决策树算法为:梯度迭代决策树算法。可选的,在所述根据所述特征,确定每一条待检测流量的特征向量之前,所述方法还包括:对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;所述根据所述特征,确定每一条待检测流量的特征向量,包括:根据预设处理后的特征,确定每一条待检测流量的特征向量。可选的,所述方法还包括:根据检测结果对所述每一个分类算法的分类结果进行验证;如果验证错误,更改该分类算法对聚类结果进行分类时所使用的训练数据集。为达到上述目的,本专利技术实施例公开了一种流量检测装置,所述装置包括:获得模块,用于针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;确定模块,用于根据所述特征,确定每一条待检测流量的特征向量;聚类模块,用于利用预设聚类算法,对所述特征向量进行聚类;分类模块,用于分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;检测模块,用于根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。可选的,所述预设聚类算法为:K-means算法。所述预设分类算法,包括以下算法中一种或几种:逻辑回归算法、支持向量机算法、随机森林算法。所述预设决策树算法为:梯度迭代决策树算法。可选的,所述装置还包括:预处理模块,用于对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;所述确定模块,具体用于:根据预设处理后的特征,确定每一条待检测流量的特征向量。可选的,所述装置还包括:验证模块,用于根据检测结果对所述每一个分类算法的分类结果进行验证;更改模块,用于在所述验证模块的验证结果为错误的情况下,更改该分类算法对聚类结果进行分类时所使用的训练数据集。由上述的技术方案可见,本专利技术实施例提供的一种流量检测方法及装置,针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;根据所述特征,确定每一条待检测流量的特征向量;利用预设聚类算法,对所述特征向量进行聚类;分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。应用本专利技术实施例,通过采用非监督的聚类算法对原始日志中的待检测流量的特征向量进行聚类后,再采用基于监督学习的分类算法和训练数据集对聚类后的结果进行分类,对分类后的结果采用基于决策树算法检测每一个特征向量对应的待检测流量是否为异常流量,解决了现有技术中通过训练数据集对待检测的流量进行分类在遇到未知流量时,因为没有相关的训练数据集而不能准确的将其进行分类,从而无法得知该未知流量是否为异常流量的问题。本专利技术实施例采用的聚类算法,即使存在未知流量也可以通过聚类算法自动将其分类,不需要依赖训练数据集进行学习。因此,提高了异常流量检测的准确率。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的流量检测方法的一种流程示意图;图2为本专利技术实施例提供的流量检测方法的另一种流程示意图;图3为本专利技术实施例提供的流量检测方法的再一种流程示意图;图4为本专利技术实施例提供的流量检测装置的一种结构示意图;图5为本专利技术实施例提供的流量检测装置的另一种结构示意图;图6为本专利技术实施例提供的流量检测装置的再一种结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为解决现有技术问题,本专利技术实施例提供了一种流量检测方法及装置,以下分别进行详细说明。需要说明的是,机器学习分为有监督的学习和无监督的学习,有监督的学习采用预先标记好的样本对待检测的样本进行训练,对应的分类算法有逻辑回归算法、支持向量机算法、随机森林算法。基于无监督的机器学习,是根据一组数据的相似度而生成的一组数据的集合,不需要预先标记好的样本,例如聚类算法。本领域技术人员可以理解的是,服务器时刻在接收来自终端的访问,每一次访问就会生成一条流量记录,从而生成包含大量流量记录的日志。针对网站的管理者来说,为了维护网站的正常使用,需要进行检测是否有异常流量的产生,会从日志包含的流量进行分析,这些流量即是待检测的流量。参见图1,图1为本专利技术实施例提供的流量检测方法的一种流程示意图,所述方法包括步骤:S101,针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征。S102,根据所述特征,确定每一条待检测流量的特征向量。S103,利用预设聚类算法,对所述特征向量进行聚类。具体的,实际应用中,所述预设聚类算法可以为K-means算法。S104,分别利用预设分类算法中的每一个分类算本文档来自技高网...
一种流量检测方法及装置

【技术保护点】
一种流量检测方法,其特征在于,所述方法包括:针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;根据所述特征,确定每一条待检测流量的特征向量;利用预设聚类算法,对所述特征向量进行聚类;分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。

【技术特征摘要】
1.一种流量检测方法,其特征在于,所述方法包括:针对包含待检测流量的日志进行特征处理,获得每一条待检测流量的特征;根据所述特征,确定每一条待检测流量的特征向量;利用预设聚类算法,对所述特征向量进行聚类;分别利用预设分类算法中的每一个分类算法和预设训练数据集,对聚类结果进行分类;根据每一个分类算法的分类结果、预设训练数据集以及预设决策树算法,检测每一个特征向量对应的待检测流量是否为异常流量。2.根据权利要求1所述的方法,其特征在于,所述预设聚类算法为:K-means算法。3.根据权利要求1所述的方法,其特征在于,所述预设分类算法,包括以下算法中一种或几种:逻辑回归算法、支持向量机算法、随机森林算法。4.根据权利要求1所述的方法,其特征在于,所述预设决策树算法为:梯度迭代决策树算法。5.根据权利要求1所述的方法,其特征在于,在所述根据所述特征,确定每一条待检测流量的特征向量之前,所述方法还包括:对获得每一条待检测流量的特征进行预设处理,所述预设处理包括:预处理、离散化处理、归一化处理和插值处理中的一种或几种;所述根据所述特征,确定每一条待检测流量的特征向量,包括:根据预设处理后的特征,确定每一条待检测流量的特征向量。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据检测结果对所述每一个分类算法的分类结果进行验证;如果验证错误,更改该分类算法对聚类结果进行分类时所使...

【专利技术属性】
技术研发人员:陈永环张迪张晓明赵冲翔
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1