一种多特征融合实时分析的恶意流量检测方法及系统技术方案

技术编号:36437355 阅读:21 留言:0更新日期:2023-01-20 22:51
本发明专利技术提供一种多特征融合实时分析的恶意流量检测方法及系统,方法包括:基于深度包检测技术获取互联网流量数据包;分别获取流量数据包的统计特征、序列特征和频率特征;将流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个流量数据包的融合特征矩阵;基于初始训练样本集对基于Transformer的检测模型进行训练;基于训练后的检测模型对初始测试样本集中的流量数据包分析检测,识别出其中的恶意流量。本发明专利技术利用流量数据包的统计特征、频率特征和序列特征融合对流量进行描述,增强了对流量数据的表示能力,且特征冗余度低,从而提升了模型检测预测效果的精确度与吞吐量。吞吐量。吞吐量。

【技术实现步骤摘要】
一种多特征融合实时分析的恶意流量检测方法及系统


[0001]本专利技术涉及互联网数据安全领域,更具体地,涉及一种多特征融合实时分析的恶意流量检测方法及系统。

技术介绍

[0002]随着计算机网络技术的蓬勃发展,互联网已经融入生产生活的方方面面,网络流量与主机、网络、应用紧密相连,构成了一个结构复杂、多因素融合的体系。但在社会群体享受信息化与智能化所带来的便利同时,互联网中也存在大量的网络恶意活动。这些恶意活动通过消耗网络资源,以降低网络设备和终端主机的性能,同时也会给广大网络用户带来网络安全威胁。随着黑客攻击手段的升级,传统的基于主机的、基于网络的及基于签名匹配的技术检测能力逐渐降低,网络安全再度受到威胁,研究人员开始转向基于恶意流量检测技术的研究。
[0003]网络恶意流量检测作为一项有效的安全防护技术,能够对网络进行实时监测,有效感知外部攻击,为相关管理人员提供响应决策。目前,国内外研究人员对网络恶意流量检测进行了系统而深入的研究,但现有的研究工作均存在一定的缺陷和问题:1、传统的恶意流量检测是根据预先配置的规则,通过分析流量的特征来识别恶意流量,目的是保护合法的互联网用户免受网络攻击。然而,在高带宽网络(如Internet骨干网)中,基于规则检测可以达到较高的检测精度和吞吐量,但无法检测到零日攻击。2、部分研究工作开发了报文级和流级检测方法,但报文级检测无法检测零日攻击,流级方法具有极大的检测延迟,极大降低了该两类方法在目前实际场景的应用。3、随着攻击技术的不断提升,有网络攻击发起者开始通过在恶意流量中注入噪声(例如添加良性应用中产生的报文)来干扰和规避现有的恶意流量检测方法。4、现有基于机器学习的恶意流量检测方法虽然可以有效识别零日恶意流量,但由于处理开销大,导致吞吐量较低,不适用于高速流量网络中,导致大多数基于机器学习的方法仅能进行离线部署,无法实现实时检测,具有较大的应用局限性。5、部分基于机器学习的恶意检测方法提取的特征多为来自HTTP、DNS和其他协议包内容的明文特征,随着网络流量加密化趋势日益壮大,基于明文特征的检测方法不再适用于目前主流的网络应用场景。6、现有的大部分恶意流量检测方法仅能对过去流量情况进行分析识别,对于未来的预测研究有较大的欠缺,而在实际场景中,对未来流量趋势的前瞻可以为管理员或用户提前预警提供辅助。
[0004]综上所述,如何在实际网络环境中,实现实时高鲁棒性高精度恶意流量检测是亟待解决的问题。

技术实现思路

[0005]本专利技术针对现有技术中存在的技术问题,提供一种多特征融合实时分析的恶意流量检测方法及系统。
[0006]根据本专利技术的第一方面,提供了一种多特征融合实时分析的恶意流量检测方法,
包括:S1,基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;S2,对每一个所述流量数据包进行特征重要性分析后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;S3,将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;S4,基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;S5,基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
[0007]根据本专利技术的第二方面,提供一种多特征融合实时分析的恶意流量检测系统,包括:第一获取模块,用于基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;第二获取模块,用于对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;第三获取模块,用于将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;训练模块,用于基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;检测模块,用于基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。
[0008]根据本专利技术的第三方面,提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现多特征融合实时检测的恶意流量检测方法的步骤。
[0009]根据本专利技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现多特征融合实时检测的恶意流量检测方法的步骤。
[0010]本专利技术提供的一种多特征融合实时检测的恶意流量检测方法及系统,具有以下有益效果:(1)本专利技术对恶意网络流量进行分析,利用统计特征、频率特征和序列特征融合对流量进行描述,增强了对流量数据的表示能力,且特征冗余度低,从而提升了模型检测预测效果的精确度与吞吐量。
[0011](2)本专利技术利用统计特征、序列特征和频率特征表示恶意网络流量,所采用的数据特征与包的细节内容无关,与目前的网络流量加密化与解密复杂度高的趋势相契合,具有实用性与通用性。
[0012](3)本专利技术通过对包特征序列编码为向量,减少了特征处理的开销,从而实现高性
能实时检测预测。
[0013](4)本专利技术通过频域分析有效提取和分析了网络流量的频率信息,所提取出的流量特征信息损失小,流量的频域特征可以有效表示流量的各种分组排序模式,低频域特征分析损耗保证了模型检测的高精度。
[0014](5)本专利技术中提取的统计特征、序列特征和频率特征代表了数据包序列的细粒度信息,不易受注入噪声报文的干扰,从而实现模型的鲁棒检测预测,具有健壮性。
[0015](6)本专利技术利用一个模型同时实现了恶意流量的检测与预测双重功能,避免使用冗余资源,与工业界精简整合潮流相吻合。
附图说明
[0016]图1为本专利技术提供的一种多特征融合实时分析的恶意流量检测方法流程图;图2为多特征融合实时分析的恶意流量检测方法的架构示意图;图3为本专利技术提供的一种多特征融合实时分析的恶意流量检测系统的结构示意图;图4为本专利技术提供的一种可能的电子设备的硬件结构示意图;图5为本专利技术提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
[0017]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。另外,本专利技术提供的各个实施例或单个实施例中的技术特征可以相互任意结合,以形成可行的技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多特征融合实时检测的恶意流量检测方法,其特征在于,包括:S1,基于深度包检测技术获取互联网流量数据包,并对所述流量数据包进行处理生成初始训练样本集和初始测试样本集;S2,对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征;对所述互联网流量数据进行离散傅里叶变换获取流量的频率特征;S3,将所述流量的统计特征、流量的序列特征和流量的频率特征进行叠加,获取每一个所述流量数据包的融合特征矩阵;S4,基于所述初始训练样本集对基于 Transformer 的检测模型进行训练;S5,基于训练后的检测模型对所述初始测试样本集进行检测,获取所述初始测试样本集中流量数据包的检测结果,所述检测结果包括恶意或非恶意。2.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S1,基于深度包检测技术获取互联网流量数据包,包括:基于深度包检测技术访问可达的IP、URL和域名捕获实时流量数据包;对所述实时流量数据包处理得到 PCAP文件原始数据集,经过预处理后生成初始训练样本集和初始测试样本集。3.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S2中对每一个所述流量数据包进行特征重要性检测后获取流量的统计特征,包括:从每一个流量数据包中提取传统统计特征,所述传统统计特征包括源端口和目的端口,向后字节数、向前字节数、总字节数、向后包数、向前包数、总包数、向后带负载包数、向前带负载包数和带负载包数以及流的持续时间;统计所有流量数据包中字节数和时间间隔的最大值、平均值、中位值、方差、标准差和协方差,统计所有流量数据包中的每个字节的比特熵和所有字节的总熵,以及统计所有流量数据包的包长度的分布模式和所有流量数据包的包到达间隔时间的分布模式,完成统计特征的扩展;将扩展后的统计特征输入随机森林模型中,获取所述随机森林模型输出的按照重要性排序的统计特征,从中筛选出合适的统计特征。4.根据权利要求1所述的恶意流量检测方法,其特征在于,所述S2中通过马尔可夫随机转移矩阵与量化处理所述互联网流量数据获取流量的序列特征,包括:创建第一设定数量的容器,以所有流量数据包中最大包长度为上限,将数据域以第一设定数量进行等分,分割后的值域段被均匀分散到大小相同的容器中;构造第一马尔可夫随机转移矩阵MRFTM,其中每一项 MRFTM[i,j]为流量数据包的包长度从第i个容器到第j个容器之间的转换次数;对第一马尔可夫随机转移矩阵MRFTM进行归一化处理,作为流量的包长度马尔可夫序列特征;创建第一设定数量的容器,以所有流量数据包中最大包到达时间间隔为上限,将数据域以第一设定数量进行等分,分割后的值域段被均匀分散到大小相同的容器中;
构造第二马尔可夫随机转移矩阵MRFTM,其中每一项 MRFTM[i,j]为流量数据包的包到达时间间隔从第i个...

【专利技术属性】
技术研发人员:彭凯陆通徐博何建文李志康王晨昕王忠浩彭聪
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1