一种基于幂级数RNN的多态网络蠕虫特征码提取制造技术

技术编号:24092209 阅读:32 留言:0更新日期:2020-05-09 08:35
本发明专利技术属于特征码提取技术领域,涉及一种基于幂级数RNN的多态网络蠕虫特征码提取。基于幂级数RNN的网络结构分为:处理输入数据/预处理、seq‑to‑seq加attention模型、解码、Beam Search方法生成摘要四个部分。本发明专利技术使用CNN网络实现多态蠕虫检测的工作,使用RNN网络进行多态蠕虫特征码提取的工作。从而获取训练后的到的可以自动进行蠕虫检测的模型与自动提取蠕虫特征码的模型。进而大大加快了蠕虫的查杀工作,将蠕虫消灭在蠕虫爆发的初期,从而大幅减少经济损失。

A power series RNN based feature code extraction for polymorphic network worms

【技术实现步骤摘要】
一种基于幂级数RNN的多态网络蠕虫特征码提取
本专利技术属于特征码提取
,涉及一种基于幂级数RNN的多态网络蠕虫特征码提取。
技术介绍
随着科学技术的进步和最新科研成果的普及,互联网在人们的生活中起着越来越重要的作用。人们的互联、互信、互通都经过互联网来完成,甚至个人信息都需要上传至网络来完成如征信,报税等工作。互联网用户也越来越多的利用互联网来存储私人数据。互联网在方便着人们生活工作的同时,可却也带来了一定的危机。层出不穷的恶意程序活跃在互联网中,无时无刻地觊觎着各种各样的信息。这对于数据存储甚至整个互联网的安全都带来了全新的挑战,并且随着编程难度的下降新的恶意程序获得的门槛也日渐降低,这大大增加了网络安全维护的难度。表1-1蠕虫,木马,病毒区别恶意程序主要分为以下几种:第一,后门程序:是指那些绕过安全性控制而获取对程序或系统访问权的程序方法,为某位系统的使用者提供控制计算机的途径。第二,计算机病毒:是一种恶意的软件程序,当它运行的时候通过修改其它电脑程序或插入自己的代码,来达到自主复制的效果。当复制结束的时候,受影响的区域则称其感染了蠕虫。但是它本身不能独立运行,需要通过它感染的程序运行之后将其激活。第三,木马:对用户隐藏自己真实目标的程序,当用户执行的时候才会感染文件,种植木马的人可以通过木马对主机进行控制,还可以获取感染主机中所存储的信息。第四,网络蠕虫:通过网络自身传输到其他节点上的可以独立运行的程序代码。主要是通过文件、邮件和网络共享等方式进行传播,主要特点是通过扫描其他节点主机的漏洞,利用系统的漏洞来攻击其它主机。表1-1则展示了四种恶意程序的不同。由于网络蠕虫是一种不需要人工干预就可以自动运行的恶意代码,所以其越来越多的受到不法分子的使用。2017年5月在世界范围内爆发的“勒索病毒”即是蠕虫的一种,造成了约80亿美元的经济损失。然而目前阻止蠕虫感染的主流方法是对系统漏洞和软件漏洞打补丁来阻断蠕虫的传播,可是由于蠕虫传播速度特别快,而且打补丁所花费的时间较长,导致蠕虫得以在短时间内传遍整个网络。并且随着蠕虫技术的发展,多态蠕虫由于其每个实例都有不同字符序列的特点,更进一步增加了蠕虫防治的难度。在互联网发展的同时,对深度学习的研究也逐渐深入。神经网络是深度学习的一种,并且由于其具有适应性的简单单元组成的广泛并行互联的网络,他的组织能够模拟生物神经系统对真实的世界物体所做出交互反应。深度神经网络是指两层及以上的神经网络相连接,而神经网络的层数直接决定了它对现实的刻画能力——利用每层更少的神经元拟合更加复杂的函数。随着计算机运算能力的提升,深度神经网络的应用也越来越宽泛,在2006年Hinton提出了用自主学习初始化参数,通过逐步调优的方法来解决深度网络学习问题,深度学习的发展进入了全新的阶段。CNN与RNN分别是深度神经网络的两个实现方式,已经在图像分类方面和自然语言的处理等方面取得了可观的成绩。
技术实现思路
鉴于病毒特征码的重要性,本专利技术使用了基于幂级数RNN作为解码器的深度神经网络进行了蠕虫特征码提取操作。实验前先获取基于CNN的蠕虫分类实验所获得的蠕虫有效载荷和已知的该种蠕虫的特征码。蠕虫的有效载荷由于多态的缘故每个实例的信息都是不同的,但是蠕虫的特征码在每个蠕虫实例的多态信息中全部都是相同的。特征码可以用来标记蠕虫,检测网络流量中出现了蠕虫特征码即表明出现了蠕虫病毒。再对蠕虫及特征码依据ASCII表进行相应的映射化处理后,使蠕虫作为提取源,同时蠕虫特征码作为提取目标。并且由于幂级数可以将函数在某点的值依照某种规则展开为幂级数的形式,而这跟RNN网络中解码器的功能是类似,故据此提出了全新的幂级数RNN并进行了介绍,最后将幂级数RNN作为解码器进行了实验并讨论了实验的优劣。本专利技术包括如下技术方案:一种基于幂级数RNN的多态网络蠕虫特征码提取,基于幂级数RNN的网络结构分为:处理输入数据/预处理、seq-to-seq加attention模型、解码、BeamSearch方法生成摘要四个部分。所述seq-to-seq的网络模型,输入层与输出层之间加入中间层;中间层的作用是固定长度每次由输入层输出的字节长度,同输出层所得到的字节长度是一致的,即中间层的字节长度是固定的;seq-to-seq中最为核心的就是Encoder-Decoder机制,它通过引入中间量的方式,从而达到了seq-to-seq的设计目标;在模型设计时引入了attention机制,在综合考虑整个文本的基础上,对每个基本单元进行概率计算。编码器就是Encoder,Encoder通过对输入的数据通过某种变换函数的计算从而生成了一种语义,这种中间语义就可以交给Decoder进行解码操作;解码器即Decoder,其任务根据解码器所生成的中间语义和之前通过训练生成的所有历史信息来生成某一时刻要生成的单词;幂级数是函数在某一点按照某种规则展开的无限级数格式,以下公式就是一个幂级数的展示,其中an代表第n项的系数,c是常数;一个独立于x并且可以展开为n的函数:seq-to-seq网络中编码器的作用是将输入数据编码成中间值,解码器需要将编码器生成的中间值解码为特征码,由于幂级数可以将函数在某点的值展开成幂级数的形式,而这跟解码器的功能类似,故拟采用幂级数展开式理论来设计解码器,即为幂级数RNN解码器。根据幂级数的展开形式,将RNN的记忆细胞在时刻t-1用矩阵ht-1∈D*K来表示,其中D表示状态的维数,k代表分解的维数;那么借鉴于传统的LSTM理论,RNN网络应该同时考虑过去状态的门限和当前的短记忆ht-1,因此,网络的记忆细胞单元计算公式如下:其中就是ht-1在t-1这一时刻展开的函数公式;而表示ft的k-1阶导数,输入门it表示流入当前存储单元最新的信息量,忘记门ft来控制在存储单元中应该保存多少过去状态的信息。那么根据幂级数理论,忘记门ft,输入门it计算方法如下:it=sigmoid(Wixt+UiHt+bi)(4.3)ft=sigmoid(Wfxt+UfHt+bf)(4.4)jt可以看作是一个在两个连续时间戳之间的中间状态,其计算方法如下:jt=tanh(Wjxt+Ujht-1+bj)(4.5)最后,输出门则综合历史状态以及当前状态信息,最终计算方法如下:ot=sigmoid(Woxt+UoHt+bo)(4.6)因此,网络通过不断迭代公式(4.6)和(4.7)来完成不断记忆和学习的过程,在这个过程中忘记门,输入门和输出门发挥了重要的作用,使得网络可以有效的记忆并且学习恶意代码的特征;幂级数RNN同LSTM最大的不同之处就在于对短记忆ht-1的处理方面,分别将ht-1进行幂级数的展开,然后再将按照幂级数方式展开的Ht分别带入到输入门it-1,忘记门ft-1,输出门ot-1中去;由于网络流量是离散的,因此导数的计算需要在离散时间域中定义,所以网络信息的本文档来自技高网
...

【技术保护点】
1.一种基于幂级数RNN的多态网络蠕虫特征码提取,其特征在于,基于幂级数RNN的网络结构分为:处理输入数据/预处理、seq-to-seq加attention模型、解码、Beam Search方法生成摘要四个部分。/n

【技术特征摘要】
1.一种基于幂级数RNN的多态网络蠕虫特征码提取,其特征在于,基于幂级数RNN的网络结构分为:处理输入数据/预处理、seq-to-seq加attention模型、解码、BeamSearch方法生成摘要四个部分。


2.根据权利要求1所述的一种基于幂级数RNN的多态网络蠕虫特征码提取,其特征在于,所述seq-to-seq的网络模型,输入层与输出层之间加入中间层;中间层的作用是固定长度每次由输入层输出的字节长度,同输出层所得到的字节长度是一致的,即中间层的字节长度是固定的;
seq-to-seq中最为核心的就是Encoder-Decoder机制,它通过引入中间量的方式,从而达到了seq-to-seq的设计目标;在模型设计时引入了attention机制,在综合考虑整个文本的基础上,对每个基本单元进行概率计算。


3.根据权利要求1所述的一种基于幂级数RNN的多态网络蠕虫特征码提取,其特征在于,编码器就是Encoder,Encoder通过对输入的数据通过某种变换函数的计算从而生成了一种语义,这种中间语义就可以交给Decoder进行解码操作;解码器即Decoder,其任务根据解码器所生成的中间语义和之前通过训练生成的所有历史信息来生成某一时刻要生成的单词。


4.根据权利要求1所述的一种基于幂级数RNN的多态网络蠕虫特征码提取,其特征在于,所述幂级数是函数在某一点按照某种规则展开的无限级数格式,以下公式就是一个幂级数的展示,其中an代表第n项的系数,c是常数;一个独立于x并且可以展开为n的函数:




5.根据权利要求1所述的一种基于幂级数RNN的多态网络蠕虫特征码提取,其特征在于,seq-to-seq网络中编码器的作用是将输入数据编码成中间值,解码器需要将编码器生成的中间值解码为特征码,由于幂级数可以将函数在某点的值展开成幂级数的形式,而这跟解码器的功能类似,故拟采用幂级数展开式理论来设计解码器,即为幂级数RNN解码器。


6.根据权利要求1所述的一种基于幂级数RNN的多态网络蠕虫特征码提取,其特征在于...

【专利技术属性】
技术研发人员:郭薇周翰逊张国栋宫照煊周唯刘智
申请(专利权)人:沈阳航空航天大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1