System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于卷积神经网络表示学习的恶意软件流量分类方法技术_技高网

一种基于卷积神经网络表示学习的恶意软件流量分类方法技术

技术编号:39978877 阅读:26 留言:0更新日期:2024-01-09 01:22
本发明专利技术公开了一种基于卷积神经网络表示学习的恶意软件流量分类方法,采用基于卷积神经网络CNN来表达学习,能够自动从流量数据中学习特征,提升泛化能力,从而更好地识别并适应新型恶意软件变种;本发明专利技术通过将流量数据转化为灰度图像,利用CNN自动从数据中提取有用特征,能够直接从原始数据中学习特征,克服了手动特征选择和设计的问题,同时提高了对新恶意软件变种的检测效果;系统复杂性:针对传统的基于行为分析方法需要监控大量的系统行为,涉及复杂的数据采集、分析和处理过程的问题;本发明专利技术通过直接分析流量数据,避免了监控系统行为的需求,从而降低了整体系统的复杂性,简化了实施流程。

【技术实现步骤摘要】

本专利技术属于网络空间安全,特别是涉及一种基于卷积神经网络表示学习的恶意软件流量分类方法


技术介绍

1、在网络阿全领域,恶意软件检测和网络流量的分类是一个持续发展的研究方向,目前常见的恶意软件流量检测方法包括基于规则匹配的流量分类方法、基于传统特征工程方法以及基于行为分析的方法。其中,网络空间安全技术具体是依赖于人工设计的规则体系,针对已知的恶意软件行为,将相应的规则硬编码到程序中,通过将预定义的规则和网络流量进行匹配,这些系统能够辨别出恶意软件流量并进行分类,强调事先设定的规则集合,效用在于能够快速发现特定类型的恶意活动。基于传统特征工程方法具体是通过统计和行为分析实现,经典的机器学习方法通过从立式数据中提取模式,借助一组选定的特征对流量进行分类;然而,该方法需要事先手动设计出流量特征数据集,作为模型训练的输入,尽管具有广泛应用的潜力,但不断演化的恶意软件环境中可能面临特征选择的挑战。基于行为分析的方法部分聚焦于恶意软件的行为,而不仅仅依赖于对文件的静态分析,此类方法致力于监测系统中的活动,以便更好地识别出隐藏的恶意行为,通过监控程序的操作和交互模式,这些方法能够捕捉到潜在的恶意活动迹象,从而提升检测的准确性。

2、虽然现有的产品已经能够对网络流量中的恶意软件流量进行检测和分析,但依旧存在以下缺陷:基于规则匹配的流量分类方法,其主要问题在于刚性限制;由于规则是手动硬编码的,只能够识别那些事先定义好的特定模式的恶意软件,这就限制了其适应未知和新型恶意活动的能力;同时,随着恶意软件的不断进化,需要不断更新和维护规则集,这就导致大量的人工工作,同时会导致漏报或误报的情形。对于基于传统特征工程方法,其主要挑战是如何选择合适的特征集,网络流量的特征往往非常复杂,而手动选择的特征可能无法涵盖所有的变化,这就导致模型性能的下降,尤其是在面对新的恶意软件变化时;并且随着恶意软件不断进化,之前选择的特征集不在匹配也可能导致模型的性能下降,同时缺乏扩展性。对于基于行为的分析方法,其通常是需要监控系统中的各个行为,这就可能会涉及大量的数据和复杂的分析,增加系统的复杂性,并可能会影响系统的性能和实时性;同时由于系统会检测各种行为,可能会产生误报的情况,即将正常行为判断为恶意行为,这也将会影响用户体验,并增加安全人员的工作量。


技术实现思路

1、本专利技术针对传统的包括基于规则匹配、基于特征工程以及基于行为分析在内的传统恶意软件流量分类方法所存在的多方面技术问题,提供了一种基于卷积神经网络表示学习的恶意软件流量分类方法,弥补了上述这些方法的不足;规则匹配方法泛化能力的不足:针对传统基于规则匹配方法仅能适应已知恶意行为,难以自动学习新的特征和模式,导致对未知和新型恶意活动适应性差的问题,本专利技术采用基于卷积神经网络cnn来表达学习,能够自动从流量数据中学习特征,提升泛化能力,从而更好地识别并适应新型恶意软件变种;手动特征选择和设计困难:针对传统的基于传统特征工程方法需要人工选择和设计特征,面对复杂的网络流量数据,难以准确捕捉所有变化的问题;本专利技术通过将流量数据转化为灰度图像,利用cnn自动从数据中提取有用特征,能够直接从原始数据中学习特征,克服了手动特征选择和设计的问题,同时提高了对新恶意软件变种的检测效果;系统复杂性:针对传统的基于行为分析方法需要监控大量的系统行为,涉及复杂的数据采集、分析和处理过程的问题;本专利技术通过直接分析流量数据,避免了监控系统行为的需求,从而降低了整体系统的复杂性,简化了实施流程;综上,解决了
技术介绍
中的问题。

2、为解决上述技术问题,本专利技术是通过以下技术方案实现的:

3、本专利技术的一种基于卷积神经网络表示学习的恶意软件流量分类方法,该方法通过计算机系统实现,计算机系统包括流量划分模块、流量清理模块、图像生成模块以及cnn分类模块四个关键模块,通过这些模块将原始网络流量数据得以精准分类和识别,从而精确的鉴别其中所包含的恶意软件流量;

4、流量划分模块:根据一定的粒度将连续的流量划分为离散的单元,将连续的流量数据划分为流和会话;所述流的定义是具有相同源ip、源端口、目标ip、目标端口对应五元组的所有数据包;所述会话的定义为双向流,包括流量的两个方向;

5、所述原始网络流量数据:将所有数据包被定义为一个原始流量集合:p={p1,...,p|p|},每个数据包被定义为pi=(xi,bi,ti),i=1,2,3,...,|p|};其中,|p|表示所有的数据包的个数即代表所有数据包总个数;pi代表对应的第i个数据包;xi表示第i个数据包对应的五元组;bi表示第i个数据包对应的大小,bi∈[0,∞)字节;ti表示第i个数据包传输开始时间,ti∈[0,∞)秒;

6、所述流:一组原始流量集合p被划分为多个子集;子集中所有的数据包按照时间书序排列,即{p1=(x1,b1,t1),...,pn=(xn,bn,tn)},t1<t2<...<tn,其中t代表每个数据包的时间戳,t的上标用于区分不同的t,基于1-n个数据包,使用t上标1到n表示不同数据包的时间戳,其中,tn表示这个流的最后一个数据包的时间戳,t1表示这个流中第一个数据包的时间戳;一个子集被定义为一个流f=(x,b,dt,t),其中,第一个元素x代表相同的五元组,即x=x1=x2=...=xn,即具有相同五元组的数据包pi被划分到一个流中;第二个元素b代表流中所有数据包大小的总和,即b=b1+b2+...+bn;第三个元素dt是流的持续时间:dt=tn-t1;最后一个元素t是第一个数据包的传输开始时间;整个原始流量可以被转换为流f={f1,f2,...,fn};

7、所述会话:一个会话包括流的两个方向,即源ip/端口和目标ip/端口能够互换;

8、数据清理模块:从数据包层面的分析角度来看,内在的流量特征通常在tcp/ip模型的应用层,即osi模型的第七层,得以清晰体现;数据清理模块用于为用户提供两种数据包层级的选择,即所有层和第七层,那么流量信息将仅保留数据包的应用层载荷,而舍弃其它层的载荷信息;另一方面,若用户选择所有层,则所有层的载荷信息将被保留;与此同时,数据清理模块将会对空文件和重复文件进行处理,以便精简流量数据,并将更加精细的数据传递至后续处理层;

9、图像生成模块:每个流或会话的大小各异,考虑卷积神经网络cnn的输入数据大小必须保持一致,采取如下策略:对每个流或会话,仅利用前m个字节作为输入,这个选择能够被直观地解释;在流量数据经过本图像生成模块时,首先被修剪为一个统一的长度;若文件大小超过m个字节,则会被修剪为m个字节;若文件大小小于m个字节,则在末尾添加0x00,将其填充至m个字节;然后,修剪或填充后的结果文件将被转化为一个大小为m个字节的灰度图像;这一过程中,原始文件的每个字节都代表一个像素,其中0x00代表着黑色,而0xff代表白色;最终,这些灰度图像被转化为idx格式文件,其中包含一组图像的所有像素值以及相关的统计信息;

本文档来自技高网...

【技术保护点】

1.一种基于卷积神经网络表示学习的恶意软件流量分类方法,其特征在于,该方法通过计算机系统实现,计算机系统包括流量划分模块、流量清理模块、图像生成模块以及CNN分类模块四个关键模块,通过这些模块将原始网络流量数据得以精准分类和识别,从而精确的鉴别其中所包含的恶意软件流量;

2.根据权利要求1所述的一种基于卷积神经网络表示学习的恶意软件流量分类方法,其特征在于,所述CNN分类模块具体是先将图片像素进行归一化处理,将像素范围从[0,255]归一化到[0,1],之后经过第一个卷积层,第一个卷积层C1使用大小为5*5的32个卷积核执行卷积运算,C1层的结果是32个大小为28*28的特征图,在C1层之后有一个2*2的最大池化操作P1层,P1层生成32个大小为14*14的特征图;第二个卷积层C2的卷积核大小也是5*5,但有64个通道,结果是64个大小为14*14的特征图;然后经过第二个2*2的最大池化层P2,生成了64个大小为7*7的特征图;最后一层是全连接层,结果大小为1024;采用softmax函数输出每个类别的概率;此外,使用dropout技术来缓解过拟合。

3.根据权利要求1所述的一种基于卷积神经网络表示学习的恶意软件流量分类方法,其特征在于,所述使用二元和多元分类器是在流量分类的实际应用中,仅进行恶意软件流量的识别,在有必要时再进行更精细的流量分类,以识别每个类别的恶意软件和正常流量;在这种情况下,首先进行二元分类,以识别恶意软件或正常流量,然后分别进行多元分类,以识别每个类别的流量。

4.根据权利要求1所述的一种基于卷积神经网络表示学习的恶意软件流量分类方法,其特征在于,所述使用多元分类器是在应用中,需要一次性对所有类型的流量进行分类,该要求分类器具有相对较高的性能,进行一个使用所有类别的流量的多元分类。

5.根据权利要求1所述的一种基于卷积神经网络表示学习的恶意软件流量分类方法,其特征在于,该方法包括如下步骤:

...

【技术特征摘要】

1.一种基于卷积神经网络表示学习的恶意软件流量分类方法,其特征在于,该方法通过计算机系统实现,计算机系统包括流量划分模块、流量清理模块、图像生成模块以及cnn分类模块四个关键模块,通过这些模块将原始网络流量数据得以精准分类和识别,从而精确的鉴别其中所包含的恶意软件流量;

2.根据权利要求1所述的一种基于卷积神经网络表示学习的恶意软件流量分类方法,其特征在于,所述cnn分类模块具体是先将图片像素进行归一化处理,将像素范围从[0,255]归一化到[0,1],之后经过第一个卷积层,第一个卷积层c1使用大小为5*5的32个卷积核执行卷积运算,c1层的结果是32个大小为28*28的特征图,在c1层之后有一个2*2的最大池化操作p1层,p1层生成32个大小为14*14的特征图;第二个卷积层c2的卷积核大小也是5*5,但有64个通道,结果是64个大小为14*14的特征图;然后经过第二个2*2的最大池化层p2,生成了64个大小为7*7的...

【专利技术属性】
技术研发人员:王昊天
申请(专利权)人:上海螣龙科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1