当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于集成学习的恶意软件制造技术

技术编号:39853802 阅读:6 留言:0更新日期:2023-12-30 12:53
本说明书实施例提供了一种基于集成学习的恶意软件

【技术实现步骤摘要】
一种基于集成学习的恶意软件APT组织分类方法及系统


[0001]本文件涉及信息安全
,尤其涉及一种基于集成学习的恶意软件
APT
组织分类方法及系统


技术介绍

[0002]随着互联网的快速发展,网络安全问题日益受到重视

在近年来,一些重大网络安全事件屡屡发生,教育

制造和医疗三个行业成为最受攻击的目标,此外,政务

金融

企业

公众等领域也都面临着各种网络威胁,攻击手段日趋复杂多样,包括钓鱼邮件

勒索软件
、DDoS
攻击等,这些问题对于经济

社会和国家安全都带来了巨大的风险和挑战

[0003]在层出不穷的计算机安全事件中,高级持续性威胁
(Advanced Persistent Threat

APT)
以其复杂和棘手的特性,给当前的网络安全环境带来了严峻的挑战和威胁
。APT
攻击是一种针对特定目标的持续性攻击,他们利用复杂的技术手段和社工技巧以长期持续的方式侵入目标网络,与传统的攻击相比,
APT
攻击更加复杂

隐蔽和长久,难以被发现和防范,旨在长期内持续对目标网络发起攻击

因此,如何快速准确地追踪恶意软件的源头,分析
APT
组织的攻击行为和策略,以便有效预防和应对
APTr/>攻击,成为网络安全领域的重要研究方向

[0004]APT
组织溯源的任务是要求本文为恶意软件样本归类到对应的
APT
攻击组织

从特征使用的角度来讲,现有的技术多集中于单类型特征的使用,虽然单类特征的获得难度更低,但也存在对样本特征描述不全面的问题;从分类对象和分类任务的角度来讲,大部分的实验研究的对象是恶意代码样本,常见的任务有恶意软件检测
(
二分类任务
)
和恶意软件家族分类
(
多分类任务
)
,虽然恶意软件检测和
APT
组织溯源都是多分类的任务,但
APT
组织溯源任务存在以下两个难点,导致分类模型的构建效果较差:
[0005](1)
特征选择不全面

以往研究中,对恶意软件选择的特征不够全面,选择的特征不能全面描述整个恶意软件,带有信息缺失问题,导致模型无法有效地提取和利用全面的特征信息,影响分类效果

[0006](2)
模型选择不合理

过去的研究中,选择的模型不合适

选择模型单一或者模型的超参数没有进行合理的调整,容易导致模型无法充分利用数据集中的信息,从而影响分类效果

[0007]因此,需要设计一种能够更好地实现恶意软件样本对
APT
组织的分类的方法


技术实现思路

[0008]本说明书一个或多个实施例提供了一种基于集成学习的恶意软件
APT
组织分类方法,包括:
[0009]S1.
提取获取的恶意软件数据集的多维度特征构成特征集;所述特征集包括
PE
头统计特征

二进制灰度特征
、OpCode
特征和
CFG
特征;
[0010]S2.
根据所述特征集训练多个基分类器,对不同维度特征进行特征组合,基于特征
对应的的基分类器,利用集成学习方法得到集成学习模型;
[0011]S3.
通过所述特征集输入到所述集成分类器中,找出最佳的特征组合和集成学习模型作为分类模型,通过所述分类模型进行恶意软件
APT
组织分类

[0012]本说明书一个或多个实施例提供了一种基于集成学习的恶意软件
APT
组织分类系统,包括:
[0013]特征提取模块:用于提取获取的恶意软件数据集的多维度特征构成特征集;所述特征集包括
PE
头统计特征

二进制灰度特征
、OpCode
特征和
CFG
特征;
[0014]模型训练模块:用于根据所述特征集训练多个基分类器,对不同维度特征进行特征组合,基于组合中特征对应的基分类器,利用集成学习方法得到集成学习模型;
[0015]特征分类模块:用于通过所述特征集输入到所述集成分类器中,找出最佳的特征组合和集成学习模型作为分类模型,通过所述分类模型进行恶意软件
APT
组织分类

[0016]本说明书一个或多个实施例提供了一种电子设备,包括:
[0017]处理器;以及,
[0018]被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器实现上述基于集成学习的恶意软件
APT
组织分类方法的步骤

[0019]本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述基于集成学习的恶意软件
APT
组织分类方法的步骤

[0020]本专利技术有益效果如下:
[0021]本专利技术旨在针对
APT
组织的持续性攻击,设计一种基于多维度特征集成学习的恶意软件
APT
组织分类方法,通过收集

提取和分析恶意软件的行为

策略和攻击手段,对恶意样本进行
APT
组织溯源,迅速确定攻击来源和攻击目标,从而提高紧急响应能力;本专利技术可以明确恶意样本的所属
APT
组织,了解
APT
组织的行为

策略和攻击模式,从已有的
APT
组织恶意软件中构建出与之对应的恶意软件的行为模型和攻击模型,最终实现对
APT
组织的溯源任务,为网络安全防御提供更有效的参考和指导

[0022]针对恶意软件的
APT
组织溯源问题,本专利技术设计了一种基于多维度特征集成学习的恶意软件
APT
组织分类方法,通过收集

提取和分析恶意软件的行为

策略和攻击手段,本专利技术可以从已有的
APT
组织恶意软件中构建出与之对应的恶意软件的行为模型和攻击模型,最终实现对
APT
组织的溯源任务,为网络安全防御提供更有效的参考和指导
[0023]本专利技术旨在针对
APT
组织的持续性攻击,通过对恶意样本进行
APT
组织溯源,迅速确定攻击来源和攻击目标,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于集成学习的恶意软件
APT
组织分类方法,其特征在于,包括:
S1.
提取获取的恶意软件数据集的多维度特征构成特征集;所述特征集包括
PE
头统计特征

二进制灰度特征
、OpCode
特征和
CFG
特征;
S2.
根据所述特征集训练多个基分类器,对不同维度特征进行特征组合,基于特征对应的的基分类器,利用集成学习方法得到集成学习模型;
S3.
通过所述特征集输入到所述集成分类器中,找出最佳的特征组合和集成学习模型作为分类模型,通过所述分类模型进行恶意软件
APT
组织分类
。2.
根据权利要求1所述的方法,其特征在于,所述
PE
头统计特征包含字符串统计信息

字节统计信息

通用信息

头信息和节特征,每个恶意软件样本生成一个统计数值序列;所述二进制灰度图特征提取方法为:将恶意软件的字节流的每个十六进制数据转化为0‑
255
的十进制表示,将转化后的数值映射到像素的灰度区间,令数值的大小对应灰色的深浅,将每个十六进制数据映射到一个对应的像素上,将恶意软件样本转变成灰度图像;操作码
OpCode
被用于描述机器语言指令中,所述
OpCode
特征的提取方法为:先将恶意软件样本进行反汇编,反汇编后对产生的汇编代码进行处理;控制流程图
CFG
是一个过程或程序的抽象表现,是用在编译器中的一个抽象数据结构,由编译器在内部维护,代表了一个程序执行过程中会遍历到的所有路径;
CFG
中,节点表示程序的各个不同的反汇编代码块,边表示这些反汇编代码块之间的控制关系

执行顺序和条件分支;所述
CFG
特征包括
ACFG
特征和
BCFG
特征
。3.
根据权利要求1所述的方法,其特征在于,
S2
所述方法具体为:基于所述
PE
头统计特征

二进制灰度特征
、OpCode
特征和
CFG
特征,采用不同的分类算法分别训练出多个基分类器;对不同维度特征进行特征组合,利用集成学习方法处理组合中特征对应的基分类器,得到集成的分类模型
。4.
根据权利要求3所述的方法,其特征在于,
S3
所述方法具体包括:对二进制灰度特征和
OpCode
特征的对应模型进行合并处理,再将合并后的向量作为一个三层
MLP
模型的输入,最终输出为分类标签;对
PE
头统计特征和
CFG
特征的对应模型进行合并处理,先使用
GIN
模块对
BCFG
特征进行聚合生成第一中间变量,通过统计特征结果多层隐藏层运算生成第二中间变量,将两个中间变量拼接后用多层感知机进行运算,最终生成输出向量
。5.
一种基于集成学习的恶意软件
APT
组织分类系统,其特征在于,包括:特征提取模块:用于提取获取的恶意软件数据集的多维度特征构成特征集;所述特征集包括
PE

【专利技术属性】
技术研发人员:田志宏刘昊鲁辉张智勇孙彦斌李镇山苏申唐鹏威仇晶郭帅
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1