基于端到端模型的TTP标签预测方法、装置及介质制造方法及图纸

技术编号：39947024 阅读：4 留言：0更新日期：2024-01-08 23:00

本说明书实施例提供了一种基于端到端模型的TTP标签预测方法、装置、设备及介质，其中，方法包括对获取的软件样本进行预处理得到操作码特征和BCFG特征；构建Omodel模型和GIN模型；所述Omodel模型包括CNN层、扁平化层及分类层；所述GIN模型包括图同构网络层，全局平均池化层，跳跃知识技术层和MLP层；对构建的Omodel模型和GIN模型分别进行训练得到TTP标签预测模型；将待测操作码特征和BCFG特征输入，基于Sigmoid函数得到各自类别TTP标签的概率。以解决兼容各平台的TTP标签预测和保留标签之间关联性问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全，尤其涉及一种基于端到端模型的ttp标签预测方法、装置、设备及介质。

技术介绍

1、为了高效共享攻击事件和威胁样本，威胁描述框架被提出，其中apt威胁为重点研究目标。针对apt组织攻击行为，常选用ttp标签来描述。

2、对于各种网络威胁描述框架，需要威胁情报专家管理，以手动收集、标记、共享和管理数据。kim k等人通过对att&ck矩阵进行数学建模和ioc配对来辅助减少移动平台上威胁归因过程中错误标志的影响，实现了对移动威胁的自动ttp分类。kim k的方法仅仅针对移动平台上恶意软件的ttp分类任务，没有对个人电脑(personal computer，pc)端的windows、linux等操作系统下的程序的ttp标签进行预测。

3、ttp标签的预测是多标签分类任务。在传统的多标签分类任务，ttp标签之间完全不相交，不会互相影响，无须考虑标签之间的内在关联性，只需要简单按照标签所属类别轮流进行单独的二分类预测即可。但是在ttp标签预测任务中，样本与标签之前的关系是多对多，标签之间具有内在的关联性，不能够通过简单的多个二分类获得最终结果。否则，会破坏ttp标签之间的关联性，造成ttp标签预测结果的割裂和缺失。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种基于端到端模型的ttp标签预测方法、装置、设备及介质，以解决相关技术中平台不兼容和保留ttp标签关联性技术问题。

2、本说明书一个或多个实施例提供了一种基

3、对获取的软件样本进行预处理获得操作码特征和cfg特征，通过bert模型将所述cfg特征转化成为含有语义信息的指令向量bcfg特征，所述操作码特征和bcfg特征分别构成第一训练样本和第二训练样本；

4、构建ttp标签预测模型，其中，标签预测模型包括omodel模型和gin模型，所述omodel模型和gin模型输出连接至sigmoid函数计算层；其中，

5、所述omodel模型包括cnn层、扁平化层及分类层；所述cnn层用于对操作码特征进行特征提取，扁平化层用于将提取的特征转换为一维向量，分类层用于根据一维向量及虚拟性特征融合及分类获得ttp标签类型和数量；并基于sigmoid函数输出各标签的第一概率值；

6、所述gin模型包括由多个gin模快构成的图同构网络层，全局平均池化层，跳跃知识技术层和mlp层，所述mlp层的最后一层输出为ttp标签数量；所述图同构网络层用于对输入的bcfg特征进行聚合嵌入，得到节点的新特征；所述全局平均池化层用于将得到的节点的新特征进行全局平均池化操作得到全局特征；所述跳跃知识技术层用于将得到的全局特征进行聚合，得到全局表示向量，最后通过mlp层获得ttp标签类型和数量；并基于sigmoid函数输出各标签的第二概率值；

7、通过获得的第一训练样本和第二训练样本分别对所述omodel模型和gin模型进行训练，当模型训练次数达到最大迭代次数或损失值不再下降时停止，得到训练好的ttp标签预测模型；

8、将待测操作码特征和bcfg特征数据分别输入所述训练好的ttp标签预测模型，获得基于操作码特征的ttp标签概率和基于bert变换的控制流图的ttp标签概率。

9、进一步，所述预处理为通过反汇编代码对软件样本进行处理。

10、进一步，所述omodel模型中，所述cnn层设置三个卷积层和两个池化层；所述cnn层对输入的操作码特征进行处理，通过基于统计语言的算法将操作码构成操作码序列后借助相似度算法将所述操作码序列映射为操作码向量，将所述操作码向量进一步映射为操作码特征；

11、所述分类层设置第一全连接层、第二全连接层和第三全连接层，其中，第一全连接用于融合特征映射，第二全连接层设置256个神经元，用于特征融合，第三全连接层输出9个类别的分数，用于分类预测。

12、进一步，所述gin模型的隐藏层的尺寸设置为256，图同构网络层通过6个gin模块堆叠设置，且各gin模块设置256个神经元，gin模型每次梯度下降的步长设置为0.0001。

13、进一步，所述ttp标签预测模型参数调优采用网格搜索法得到最优参数。

14、本说明书一个或多个实施例提供了一种基于端到端模型的ttp标签预测装置，包括：

15、数据预处理模块，用于对获取的软件样本进行预处理，获得操作码特征和cfg特征，通过bert模型将所述cfg特征转化成为含有语义信息的指令向量bcfg特征，所述操作码特征和bcfg特征分别构成第一训练样本和第二训练样本；

16、构建模型模块，用于构建ttp标签预测模型，其中，标签预测模型包括omodel模型和gin模型，所述omodel模型和gin模型输出连接至sigmoid函数计算层；其中，

17、所述omodel模型包括cnn层、扁平化层及分类层；所述cnn层用于对操作码特征进行特征提取，扁平化层用于将提取的特征转换为一维向量，分类层用于根据一维向量及虚拟性特征融合及分类获得ttp标签类型和数量；并基于sigmoid函数输出各标签的第一概率值；

18、所述gin模型包括由多个gin模块构成的图同构网络层，全局平均池化层，跳跃知识技术层和mlp层，所述mlp层的最后一层输出为ttp标签数量；所述图同构网络层用于对输入的bcfg特征进行聚合嵌入，得到节点的新特征；所述全局平均池化层用于将得到的节点的新特征进行全局平均池化操作得到全局特征；所述跳跃知识技术层用于将得到的全局特征进行聚合，得到全局表示向量，最后通过mlp层获得ttp标签类型和数量；并基于sigmoid函数输出各标签的第二概率值；

19、训练模块，用于通过获得的第一训练样本和第二训练样本分别对所述omodel模型和gin模型进行训练，当模型训练次数达到最大迭代次数或损失值不再下降时停止，得到训练好的ttp标签预测模型；

20、预测模块，用于将待测操作码特征和bcfg特征数据输入所述训练好的ttp标签预测模型，得到基于操作码特征的ttp标签概率和基于bert变换的控制流图的ttp标签概率。

21、进一步，所述omodel模型中，所述cnn层设置三层卷积和两个池化层；所述cnn层对输入的操作码特征进行处理，通过基于统计语言的算法将操作码构成操作码序列后借助相似度算法将所述操作码序列映射为操作码向量，将所述操作码向量进一步映射为操作码特征；所述分类层设置第一全连接层、第二全连接层和第三全连接层，其中，第一全连接用于融合特征映射，第二全连接层设置256个神经元，用于特征融合，第三全连接层输出9个类别的分数，用于分类预测。

22、进一步，所述gin模型的隐藏层的尺寸设置为256，图同构网络层通过6个gin模块堆叠设置，且各gin模块设置256个神经元，gin模型每次梯度下降的步长设置为0.0001。<本文档来自技高网...

【技术保护点】

1.一种基于端到端模型的TTP标签预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于端到端模型的TTP标签预测方法，其特征在于，所述对软件样本进行预处理具体为，通过反汇编代码对软件样本进行处理。

3.如权利要求1所述的一种基于端到端模型的TTP标签预测方法，其特征在于，所述Omodel模型中，CNN层设置三个卷积层和两个池化层，所述CNN层对输入的操作码特征进行处理，通过基于统计语言的算法将操作码构成操作码序列后借助相似度算法将所述操作码序列映射为操作码向量，将所述操作码向量进一步映射为操作码特征；

4.如权利要求1所述的一种基于端到端模型的TTP标签预测方法，其特征在于，所述GIN模型的隐藏层的尺寸设置为256，图同构网络层通过6个GIN模块堆叠设置，且各GIN模块设置256个神经元，GIN模型每次梯度下降的步长设置为0.0001。

5.如权利要求1所述的一种基于端到端模型的TTP标签预测方法，其特征在于，所述TTP标签预测模型参数调优采用网格搜索法得到最优参数。

6.一种基于端到端模型的TTP标签预测装置，其特征在于，包括：

7.如权利要求6所述的一种基于端到端模型的TTP标签预测装置，其特征在于，所述Omodel模型中，CNN层设置三层卷积和两个池化层；所述CNN层对输入的操作码特征进行处理，通过基于统计语言的算法将操作码构成操作码序列后借助相似度算法将所述操作码序列映射为操作码向量，将所述操作码向量进一步映射为操作码特征；

8.如权利要求6所述的一种基于端到端模型的TTP标签预测装置，其特征在于，所述GIN模型中，隐藏层的尺寸设置为256，图同构网络层通过6个GIN模块堆叠设置，且各GIN模块设置256个神经元，GIN模型每次梯度下降的步长设置为0.0001。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述一种基于端到端模型的TTP标签预测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种基于端到端模型的TTP标签预测方法的步骤。

...

【技术特征摘要】

1.一种基于端到端模型的ttp标签预测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于端到端模型的ttp标签预测方法，其特征在于，所述对软件样本进行预处理具体为，通过反汇编代码对软件样本进行处理。

3.如权利要求1所述的一种基于端到端模型的ttp标签预测方法，其特征在于，所述omodel模型中，cnn层设置三个卷积层和两个池化层，所述cnn层对输入的操作码特征进行处理，通过基于统计语言的算法将操作码构成操作码序列后借助相似度算法将所述操作码序列映射为操作码向量，将所述操作码向量进一步映射为操作码特征；

4.如权利要求1所述的一种基于端到端模型的ttp标签预测方法，其特征在于，所述gin模型的隐藏层的尺寸设置为256，图同构网络层通过6个gin模块堆叠设置，且各gin模块设置256个神经元，gin模型每次梯度下降的步长设置为0.0001。

5.如权利要求1所述的一种基于端到端模型的ttp标签预测方法，其特征在于，所述ttp标签预测模型参数调优采用网格搜索法得到最优参数。

6.一种基于端到端模型的ttp标签预测装置，其特征...

【专利技术属性】
技术研发人员：田志宏，郭帅，仇晶，张智勇，鲁辉，刘昊，孙彦斌，李镇山，唐鹏威，
申请(专利权)人：广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人