一种恶意代码溯源方法、系统、设备及存储介质技术方案

技术编号:37132355 阅读:29 留言:0更新日期:2023-04-06 21:30
本申请实施例提供了一种恶意代码溯源方法、系统、设备及存储介质,用以解决现有的APT恶意代码攻击溯源分析准确率较低的技术问题。方法包括:实时收集正在进行攻击的APT恶意代码组织数据;将所述正在进行攻击的APT恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的APT恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。本申请将实时攻击的恶意代码转化为Asm2Vec函数所需类型,语义表示学习模型Asm2Vec揭示恶意代码汇编语言之间语义关系,不需要任何先验知识,也不需要数据之间的正确映射。只需在向量库中搜索即可实现同源分析,以针对特定组织的攻击实时精确防御。以针对特定组织的攻击实时精确防御。以针对特定组织的攻击实时精确防御。

【技术实现步骤摘要】
一种恶意代码溯源方法、系统、设备及存储介质


[0001]本申请涉及网络安全
,尤其涉及一种恶意代码溯源方法、系统、设备及存储介质。

技术介绍

[0002]近年来网络安全成为威胁互联网发展的主要因素,而在网络安全威胁中以APT(Advanced Persistent Threat,高级长期威胁)攻击最为常见,APT攻击主要是通过恶意代码实现的。由于APT攻击具有隐蔽性、复杂性、持续性的特点,因此对APT攻击的组织溯源工作极为困难。APT攻击中最为常见的行为是向目标网络投放恶意代码,目前的最主要检测手段是将对APT攻击中的恶意代码进行特征提取,然后根据特征表现形式选择合适的深度学习模型对其进行分类。
[0003]但由于被APT样本的特征提取目前是基于威胁情报标准定义的。其中包含了大量复杂的特征向量,这对描述样本与APT组织的关系非常不友好,另一种是将恶意代码转化为图像,然后对其进行分类,但是在对图像处理时由于考虑到神经网络输入大小时,会对图像进行裁剪,可能导致某些特征的丢失,降低模型的准确率。

技术实现思路

[0004]本申请实施例提供了一种恶意代码溯源方法、系统、设备及存储介质,用以解决现有的APT恶意代码攻击溯源分析准确率较低的技术问题。
[0005]一方面,本申请实施例提供了一种恶意代码溯源方法,所述方法包括:
[0006]实时收集正在进行攻击的APT恶意代码组织数据;
[0007]将所述正在进行攻击的APT恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的APT恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
[0008]在本申请的一种实现方式中,所述恶意代码组织溯源模型的训练过程,具体为:
[0009]处理APT恶意代码组织数据,形成APT组织函数库;
[0010]构建恶意代码组织溯源模型;
[0011]将所述APT组织函数库中的函数,输入到所述恶意代码组织溯源模型中进行训练。
[0012]在本申请的一种实现方式中,所述处理APT恶意代码组织数据,形成APT组织函数库,具体为:
[0013]将所述APT恶意代码组织数据按组织类别进行反汇编操作,生成汇编文件;
[0014]对所述汇编文件按照函数边界进行划分,形成所述APT组织函数库。
[0015]在本申请的一种实现方式中,所述将所述APT恶意代码组织数据按组织类别进行反汇编操作,生成汇编文件,具体为:
[0016]将所述APT恶意代码组织数据转化为PE格式的数据;
[0017]将经过PE格式转化后的数据通过Radare2反汇编操作,生成汇编文件。
[0018]在本申请的一种实现方式中,在所述将所述APT组织函数库中的函数,输入到所述恶意代码组织溯源模型中进行训练之后,所述方法还包括:
[0019]生成APT组织向量库;其中,所述APT组织向量库由若干向量组成,所述若干向量由所述APT组织函数库中的若干函数对应生成。
[0020]在本申请的一种实现方式中,所述方法还包括:
[0021]处理待识别的APT恶意代码组织数据,得到测试集;
[0022]将所述测试集输入到所述恶意代码组织溯源模型,生成向量表示集;
[0023]将所述向量表示集中的向量与所述APT组织向量库中的向量进行比较,生成预测结果。
[0024]在本申请的一种实现方式中,所述恶意代码组织溯源模型是基于Asm2Vec模型构建的。
[0025]另一方面,本申请实施例还提供了一种恶意代码溯源系统,所述系统包括:
[0026]数据收集单元,用于收集正在进行攻击的APT恶意代码组织数据;
[0027]预测单元,用于将所述正在进行攻击的APT恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的APT恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
[0028]此外,本申请实施例还提供了一种恶意代码溯源设备,所述设备包括:
[0029]至少一个处理器;以及,
[0030]与所述至少一个处理器通信连接的存储器;其中,
[0031]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
[0032]收集正在进行攻击的APT恶意代码组织数据;
[0033]将所述正在进行攻击的APT恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的APT恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
[0034]最后,本申请实施例还提供了一种恶意代码溯源的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
[0035]收集正在进行攻击的APT恶意代码组织数据;
[0036]将所述正在进行攻击的APT恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的APT恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。
[0037]本申请实施例提供的一种恶意代码溯源方法、系统、设备及存储介质,通过对实时攻击的APT恶意代码实现了一种自动化提取函数块的方法。该方法可以在不需要执行恶意代码的条件下,将实时攻击的恶意代码转化为Asm2Vec函数所需类型,本申请使用了语义表示学习模型Asm2Vec揭示恶意代码汇编语言之间语义关系,此方法在训练过程中不需要任何先验知识,也不需要数据之间的正确映射。在语义学习表示阶段Asm2Vec能够捕捉到汇编代码之间潜在的语义关系。只需在向量库中搜索即可实现同源分析,以针对特定组织的攻击实时精确防御。
附图说明
[0038]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0039]图1为本申请实施例提供的一种恶意代码溯源方法流程图;
[0040]图2为本申请实施例提供的Asm2Vec模型构建流程图;
[0041]图3为本申请实施例提供的恶意代码组织溯源模型的训练流程图;
[0042]图4为本申请实施例提供的一种恶意代码溯源系统组成图;
[0043]图5为本申请实施例提供的一种恶意代码溯源设备示意图。
具体实施方式
[0044]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0045]近年来网络安全成为威胁互联网发展的主要因素,而在网络安全威胁中以APT攻击最为常见,APT攻击主要是通过恶意代码实现的。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种恶意代码溯源方法,其特征在于,所述方法包括:实时收集正在进行攻击的APT恶意代码组织数据;将所述正在进行攻击的APT恶意代码组织数据输入预先训练的恶意代码组织溯源模型中,输出预测的APT恶意代码组织溯源结果;其中,所述恶意代码组织溯源模型是通过反汇编语言训练的。2.根据权利要求1所述的一种恶意代码溯源方法,其特征在于,所述恶意代码组织溯源模型的训练过程,具体为:处理APT恶意代码组织数据,形成APT组织函数库;构建恶意代码组织溯源模型;将所述APT组织函数库中的函数,输入到所述恶意代码组织溯源模型中进行训练。3.根据权利要求2所述的一种恶意代码溯源方法,其特征在于,所述处理APT恶意代码组织数据,形成APT组织函数库,具体为:将所述APT恶意代码组织数据按组织类别进行反汇编操作,生成汇编文件;对所述汇编文件按照函数边界进行划分,形成所述APT组织函数库。4.根据权利要求3所述的一种恶意代码溯源方法,其特征在于,所述将所述APT恶意代码组织数据按组织类别进行反汇编操作,生成汇编文件,具体为:将所述APT恶意代码组织数据转化为PE格式的数据;将经过PE格式转化后的数据通过Radare2反汇编操作,生成汇编文件。5.根据权利要求2所述的一种恶意代码溯源方法,其特征在于,在所述将所述APT组织函数库中的函数,输入到所述恶意代码组织溯源模型中进行训练之后,所述方法还包括:生成APT组织向量库;其中,所述APT组织向量库由若干向量组成,所述若干向量由所述APT组织函数库中的若干函数对应生成。6.根据权利要求5所述的一种恶意代码溯源方法,其特征在于,所述方法还包括:处理待...

【专利技术属性】
技术研发人员:黄华陈剑飞刘子函刘建毅李宁张文斌韩兴旺倪金超赵丽娜盛华
申请(专利权)人:国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1