【技术实现步骤摘要】
基于机器码字节流的端到端的深度学习恶意软件分类方法
[0001]本专利技术涉及网络安全
,尤其涉及一种基于机器码字节流的端到端的深度学习恶意软件分类方法。
技术介绍
[0002]在云计算、大数据、无纸化办公盛行的时代,个人隐私数据、公司业务数据等敏感数据量,办公自动化系统、云文档系统、企业资源规划系统等计算机系统已经成为人们工作生活中不可或缺的部分。然而,随着计算机技术的发展,恶意攻击者为了窃取数据资产开发出大量新型恶意软件,网络攻击体量不断扩大、恶意软件变异速度逐渐加快、恶意软件检测难度大幅提升。恶意软件对网络安全态势造成了极大威胁,阻碍工作生产正常进行。在这一背景下,网络安全的重要性越来越凸显,网络安全技术的研究也成了一个非常大的热点。
[0003]入侵检测系统(Intrusion Detection System,IDS)是一种用来检测入侵、并对入侵进行主动防御的网络安全技术。在入侵检测系统中,最重要的一环就是监控计算机运行状态,检测出恶意软件,并进行必要的安全处置。传统的恶意软件入侵检测方法主要采用基于指纹库的方法,即将恶意软件的哈希、异常行为等信息建立指纹库,与每一次操作与指纹库内的信息进行匹配,以确定被保护设备是否被恶意软件攻击。但是随着越来越多、越来越新颖的网络攻击出现,该方法存在着检测效果差、泛化性能不足、维护指纹库工作量巨大等缺点。
[0004]随着人工智能技术的不断发展,机器学习和深度学习方法被安全研究员应用于恶意软件检测领域。现有的基于机器学习的恶意软件检测方法可以依靠特征 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器码字节流的端到端的深度学习恶意软件分类方法,其特征在于,包括以下步骤:S1、以恶意软件样本机器码字节流为输入,经过恶意软件领域表示向量编码,输出恶意软件邻域信息;所述恶意软件领域表示向量编码利用一维卷积实现对恶意软件向量的纵向降维,利用一维池化实现对恶意软件向量的横向降维;S2、恶意软件邻域信息经过恶意软件全区信息抽取模块,输出恶意软件全局信息;所述恶意软件全区信息抽取模块使用自注意力机制处理降维后的恶意软件表示向量;S3、恶意软件邻域信息和全局信息共同输入残差链接模块,输出恶意软件表示向量;S4、恶意软件表示向量经过分类输出模块的处理,输出恶意软件分类结果。2.根据权利要求1所述的基于机器码字节流的端到端的深度学习恶意软件分类方法,其特征在于,步骤S1字节流输入前先修改机器码字节流的两个标志位来使样本无害化,然后截取前204800字节作为分类依据,将长度为204800的机器码字节流作为输入。3.根据权利要求1所述的基于机器码字节流的端到端的深度学习恶意软件分类方法,其特征在于,所述步骤S1中恶意软件领域表示向量编码的过程为:(1)首先将Embedding编码结果e经过一个参数独立的卷积层进行高维特征抽取得到两个(400*32)的向量c
m
和c
p
,卷积运算的公式如下所示:其中x为输入向量,kernel为卷积核,i、j、p、q为卷积相对坐标;(2)对c
m
和c
p
两个向量求Hadamard运算得到一个(400*32)的低维向量c
h
,Hadamard运算为向量按位相乘,其计算公式如下所示:i为行号、j为列号
ꢀꢀꢀꢀ
(2)(3)然后对其进行一维池化降维,得到(400*1)的恶意软件中间向量表示r
c
,其计算公式如下所示:i为行号、j为列号
ꢀꢀꢀꢀ
(3)卷积层Sigmoid激活函数计算公式如下所示:其中x为输入值
ꢀꢀꢀꢀ
(4)Hadamard运算ReLU激活函数计算公式如下所示:ReLU(x)=max(0,x)
ꢀꢀ
(5)其中x为输入值。4.根据权利要求1所述的基于机器码字节流的端到端的深度学习恶意软件分类方法,其特征在于,所述步骤S2中恶意软件全区信息抽取模块的过程为:恶意软件表示向量r
c
经过重新排列形成(25*16)的向量,建模为一个包含25个单词的句子,每个单词由长度为16的向量表示,经过一个自注意力层提取恶意软件长距离之间的可用信息,得到一个(400*1)的恶意软件概要信息向量表示r
a
,自注意力机制计算公式如下所示:
其中words代表恶意软件表示向量r
c
转化成的25个长度为16的word组成的矩阵,W
Q
、W
K
、W
V
均为模型通过训练得到的参数矩阵,Q、K、V分别是25个word对应的自注意...
【专利技术属性】
技术研发人员:李小勇,侯子晗,李灵慧,高雅丽,苑洁,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。