一种检测异常流量的方法、分类模型的构建方法及设备技术

技术编号:18292294 阅读:22 留言:0更新日期:2018-06-24 08:14
本发明专利技术公开了一种检测异常流量的方法、分类模型的构建方法及设备,根据样本网络流量数据中数据的关联关系和预设的自然语言处理N‑Gram模型,从所述样本网络流量数据中抽取特征数据,根据所述特征数据生成所述分类模型,通过所述分类模型识别待测网络流量数据是否异常,本发明专利技术根据自然语言处理N‑Gram模型,从多个协议层分析网络流量数据,来获取分类模型进行异常流量的检测,提高了分类准确率。

【技术实现步骤摘要】
一种检测异常流量的方法、分类模型的构建方法及设备
本专利技术涉及网络安全
,尤其涉及一种检测异常流量的方法、分类模型的构建方法及设备。
技术介绍
网络流量异常是指网络流量行为偏离其正常行为的情形,随着网络规模的扩大,这些异常的流量可能会对网络性能产生较大影响,如占用资源等。更甚者,如果是一种攻击性行为产生的流量,它将威胁到整个网络的安全。流量异常检测的目的就是要及时发现这些异常,并做出快速的反映。它是网络异常监视及响应应用的基础,是网络及安全管理领域的重要研究内容。目前最接近的也比较主流的方法是基于统计分析的检测方法和基于机器学习进行异常流量检测的方法。其中,基于统计分析的方法,通常根据时间序列对数据流量采样分析,从数据分布、流量变化、子资源占用情况等多个维度进行统计分析,作为描述流量的特征,利用这些特征数据分析出一些阈值结果作为判别标准。而基于机器学习的检测方法首先根据领域知识提取相关特征,特征来自大量的正例和反例样本,从而构建分类模型进行预测。上述两种方案都需要领域背景较强的专业人员来确定阈值和分析特征,以确保用于判断的阈值和用于建模的特征的准确性,人工特征选择过程需要花费大量时间进行分析,同时,这类专业人员也很稀缺,所以,上述技术的人工成本较高,另外,由于上述技术采用的算法单一,其模型准确率也较低。
技术实现思路
本专利技术提供一种检测异常流量的方法、分类模型的构建方法及设备,用以解决现有技术中分类模型的准确率较低的问题。依据本专利技术的一个方面,提供一种检测异常流量的分类模型的构建方法,所述方法包括:获取样本网络流量数据;根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N-Gram模型,从所述样本网络流量数据中抽取特征数据;根据所述特征数据生成所述分类模型。可选的,所述获取样本网络流量数据,包括:获取多个协议层的样本流量数据。可选的,所述根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N-Gram模型,从所述样本网络流量数据中抽取特征数据,包括:根据预设的分组字节数量,将所述多个协议层的样本网络流量数据进行分组;根据所述分组和所述自然语言处理N-Gram模型,从所述多个协议层的样本流量数据中抽取所述特征数据。可选的,所述根据预设的分组字节数量,将所述多个协议层的样本网络流量数据进行分组,包括:将所述多个协议层的样本网络流量数据的十六进制数据格式,按照2字节1组进行分组。可选的,所述根据所述分组和所述自然语言处理N-Gram模型,从所述多个协议层的样本网络流量数据中抽取所述特征数据,包括:抽取所述多个协议层的样本流量数据中每组十六进制数据及其之前的N-1组十六进制数据组合后构成所述特征数据,所述N取正整数。可选的,所述抽取所述多个协议层的样本流量数据中每组十六进制数据及其之前的N-1组十六进制数据组合后构成所述特征数据之后,包括:通过关联规则算法Apriori筛选出频繁模式下的所述特征数据。可选的,所述根据所述特征数据生成所述分类模型之前,包括:对所述特征数据进行向量化及归一化处理,获得双精度double型特征数据。可选的,所述根据所述特征数据生成所述分类模型,包括:根据预先构建的学习模型和所述双精度double型特征数据,生成所述分类模型。可选的,所述多个协议层包括:IP层、传输层及应用层。依据本专利技术的第二个方面,提供一种检测异常流量的方法,包括:获取待测网络流量数据;通过所述分类模型识别所述待测网络流量数据是否异常。依据本专利技术的第三个方面,提供一种检测异常流量的设备,所述设备包括处理器和存储器,所述存储器存储有检测异常流量的分类模型的构建方法的第一计算机程序,所述处理器执行所述第一计算机程序,以实现如下步骤:获取样本网络流量数据;根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N-Gram模型,从所述样本网络流量数据中抽取特征数据;根据所述特征数据生成所述分类模型。依据本专利技术的第四个方面,提供一种检测异常流量的设备,所述设备包括第二处理器和第二存储器,所述第二存储器存储有检测异常流量的方法的第二计算机程序,所述第二处理器执行所述第二计算机程序,以实现如下步骤:获取待测网络流量数据;通过所述分类模型识别所述待测网络流量数据是否异常。本专利技术的有益效果为:根据自然语言处理N-Gram模型,从多个协议层分析网络流量数据,来获取分类模型进行异常流量的检测,提高了分类准确率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术第一、第二实施例中所述分类模型的构建方法流程图;图2为图1中步骤S101的具体流程图;图3位本专利技术中多个协议层的样本流量数据的数据格式;图4为本专利技术中抽取所述特征数据的示意图;图5为本专利技术第三实施例中检测异常流量的方法的流程图;图6为图5中待测网络流量数据的处理流程图;图7为图6中步骤S301的具体流程图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。请参见图1~2,在本专利技术的第一实施例中,提供一种检测异常流量的分类模型的构建方法,所述方法包括:S100:获取样本网络流量数据;S101:根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N-Gram模型,从所述样本网络流量数据中抽取特征数据;S102:根据所述特征数据生成所述分类模型。可选的,步骤S100获取样本网络流量数据,包括:获取多个协议层的样本流量数据。可选的,所述多个协议层包括:IP层、传输层及应用层。本专利技术可选实施例中,请参见图2,所述步骤S101:根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N-Gram模型,从所述样本网络流量数据中抽取特征数据,包括:S11:根据预设的分组字节数量,将所述多个协议层的样本网络流量数据进行分组;S12:根据所述分组和所述自然语言处理N-Gram模型,从所述多个协议层的样本流量数据中抽取所述特征数据。可选的,请参见图3,所述步骤S11:根据预设的分组字节数量,将所述多个协议层的样本网络流量数据进行分组,包括:将所述多个协议层的样本网络流量数据的十六进制数据格式,按照2字节1组进行分组。可选的,参见图4,所述步骤S12:根据所述分组和所述自然语言处理N-Gram模型,从所述多个协议层的样本网络流量数据中抽取所述特征数据,包括:抽取所述多个协议层的样本流量数据中每组十六进制数据及其之前的N-1组十六进制数据组合后构成所述特征数据,所述N取正整数。可选的,所述抽取所述多个协议层的样本流量数据中每组十六进制数据及其之前的N-1组十六进制数据组合后本文档来自技高网...
一种检测异常流量的方法、分类模型的构建方法及设备

【技术保护点】
1.一种检测异常流量的分类模型的构建方法,其特征在于,所述方法包括:获取样本网络流量数据;根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N‑Gram模型,从所述样本网络流量数据中抽取特征数据;根据所述特征数据生成所述分类模型。

【技术特征摘要】
1.一种检测异常流量的分类模型的构建方法,其特征在于,所述方法包括:获取样本网络流量数据;根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N-Gram模型,从所述样本网络流量数据中抽取特征数据;根据所述特征数据生成所述分类模型。2.如权利要求1所述的检测异常流量的分类模型的构建方法,其特征在于,所述获取样本网络流量数据,包括:获取多个协议层的样本流量数据。3.如权利要求2所述的检测异常流量的分类模型的构建方法,其特征在于,所述根据所述样本网络流量数据中数据的关联关系和预设的自然语言处理N-Gram模型,从所述样本网络流量数据中抽取特征数据,包括:根据预设的分组字节数量,将所述多个协议层的样本网络流量数据进行分组;根据所述分组和所述自然语言处理N-Gram模型,从所述多个协议层的样本流量数据中抽取所述特征数据。4.如权利要求3所述的检测异常流量的分类模型的构建方法,其特征在于,所述根据预设的分组字节数量,将所述多个协议层的样本网络流量数据进行分组,包括:将所述多个协议层的样本网络流量数据的十六进制数据格式,按照2字节1组进行分组。5.如权利要求4所述的检测异常流量的分类模型的构建方法,其特征在于,所述根据所述分组和所述自然语言处理N-Gram模型,从所述多个协议层的样本网络流量数据中抽取所述特征数据,包括:抽取所述多个协议层的样本流量数据中每组十六进制数据及其之前的N-1组十六进制数据组合后构成所述特征数据,所述N取正整数。6.如权利要求1所述的检测...

【专利技术属性】
技术研发人员:薛智慧任艳萍潘季明贾蓉高宏建
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1