【技术实现步骤摘要】
基于Seq2Seq模型的恶意代码同源分析方法及装置
[0001]本专利技术涉及恶意代码同源分析
,尤其涉及一种基于Seq2Seq模型的恶意代码同源分析方法及装置。
技术介绍
[0002]恶意代码同源分析(Homology Analysis),是通过恶意代码内外部特性,以及生成和传播的规律,分析恶意代码之间衍生的关联性。恶意代码类型多种多样,包括计算机病毒、蠕虫、木马程序、后门程序、逻辑炸弹等。每一类恶意代码往往会在以下几个方面存在相似性:(1)功能性代码,为了实现相同的恶意功能,关键的代码片段可能相似,这些相似代码片段也被称为基因码,如Duqu与Stuxnet,它们的DLL注入、RPC服务等关键功能代码高度相似,被认为是共同针对伊朗核设施发动攻击的恶意代码;(2)系统函数调用,恶意行为的操作通常依赖对操作系统函数的调用,调用的函数名称、频次、顺序等可能存在相似;(3)功能行为,每一类恶意代码都有针对性的破坏行为,如勒索软件会读写用户数据、远程控制木马会查看屏幕或摄像头,功能行为的相似性反映在文件、进程、网络及注册表等方 ...
【技术保护点】
【技术特征摘要】
1.一种基于Seq2Seq模型的恶意代码同源分析方法,其特征在于,包括:收集恶意代码样本,并获取每个所述恶意代码样本的汇编指令序列;构建seq2seq模型,并利用所有汇编指令序列训练所述seq2seq模型,以获取恶意代码同源分析模型;将待测恶意代码的汇编指令序列输入所述恶意代码同源分析模型,以确定所述待测恶意代码所属族群。2.如权利要求1所述的基于Seq2Seq模型的恶意代码同源分析方法,其特征在于,所述收集恶意代码样本,包括:通过收集公共数据集,和/或,主动捕获恶意代码的方式,收集恶意代码样本,并为每个所述恶意代码样本标注族群信息。3.如权利要求1所述的基于Seq2Seq模型的恶意代码同源分析方法,其特征在于,所述获取每个所述恶意代码样本的汇编指令序列,包括:采用IDE工具反汇编所述恶意代码样本,以获取所述恶意代码样本的汇编指令序列。4.如权利要求1所述的基于Seq2Seq模型的恶意代码同源分析方法,其特征在于,所述构建seq2seq模型,并利用所有汇编指令序列训练所述seq2seq模型,包括:构建所述seq2seq模型的输入层,以用于输入汇编指令序列;构建所述seq2seq模型的词嵌入层,以用于将所述输入层获取的汇编指令转化为词向量;构建所述seq2seq模型的隐藏层,以用于基于所述词向量,计算分类概率,所述隐藏层包括编码
‑
解码结构的循环神经网络;构建所述seq2seq模型的输出层,以用于输出所述分类概率;利用所有汇编指令序列,采用梯度下降法,训练所述seq2seq模型。5.如权利要求4所述的基于Seq2Seq模型的恶意代码同源分析方法,其特征在于,所述隐藏层,用于:基于公式1
‑
3,将x
i
和h
0,i
输入编码部分循环神经元的当前单元,以获得h
0,i+1
,并将所述h
0,i+1
作为记忆信息输入到下一单元,依次循环,最后一个单元输出整个汇编指令序列的记忆信息C,z
1,i
=w
x
·
x
i
+b
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1,h
0,i+1
=tanh(z
1,i
+z
2,i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3,其中,x
i
为编码部分输入的m个汇编指令的词向量x
i
,i∈[0,m
‑
1],w
x
和分别为x
i
和h
0,i
的隐藏层权重,b
x
和为偏移,h
0,0
初始化获得;基于公式4
‑
8,将y
j
和h
1,j
输入解码部分循环神经元的当前单元,以获得h
1,j+1
,并将所述h
1,j+1
作为记忆信息输入到下一单元,依次循环,以收集所有y1、y2、
…
y
j+1
……
y
p
,y0=C
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4,v
1,j
=w
y
·
y
j
+b
y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式5,h
1,j+1
=tanh(v
1,j
+v
2,j
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式7,
其中,j∈[0,p
‑
1],p为族群数量,w
y
和分别为y
j
和h
1,j
的隐藏层权重,b
y
和为偏移,h
1,0
初始化获得;所述隐藏层的损失Li根据公式9计算获得:L
j
=
‑
log(y
j
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ...
【专利技术属性】
技术研发人员:黄娜,
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。