当前位置: 首页 > 专利查询>中国人民解放军军事科学院系统工程研究院专利>正文

一种主机异常行为数据集特征提取方法技术

技术编号：41250358 阅读：4 留言：0更新日期：2024-05-09 23:59

本发明专利技术属于网络安全技术领域，具体涉及一种主机异常行为数据集特征提取方法，主机异常行为数据集中的数据为API序列，包括如下步骤：将主机异常行为数据集按照设定的比例划分为训练集和测试集；将训练集的数据去标签后输入到GPT模型中进行预训练；依据损失函数对GPT模型进行微调；将训练集的数据输入训练后的GPT模型，得到特征化的词嵌入向量；将特征化的词嵌入向量输入k‑means模型；利用轮廓系数法，确定k‑means模型的最大聚类簇数，完成对k‑means模型的训练；将测试集数据按照先后顺序输入训练后的GPT模型和k‑means模型，得到特征提取后的API序列。本发明专利技术提高了主机异常行为检测模型的可用性，增强了数据特征提取技术的泛化性，提高异常行为检测的准确率，降低误报率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络安全，具体涉及一种主机异常行为数据集特征提取方法。

技术介绍

1、网络攻击通常采取非法修改注册表等关键配置信息、开启特定敏感服务与端口、安装木马或后门等手段，对网络主机进行控制，进而实施信息窃取和扰乱破坏。因此，开展主机安全检测，及时发现网络安全威胁显得尤为重要。主机安全防护领域，基于人工智能的主机异常行为检测技术，具有不依赖人工制定规则、特征发现效果好、检测效率高、发现未知攻击能力强等优势，已经成为当前网络安全的研究热点。主机异常行为检测的流程见图1。可以看到，因为人工智能分类模型的效果取决于数据特征表达的质量，所以数据特征选择和特征提取是进行分类检测的关键前置步骤，对主机异常行为检测数据集特征提取技术的选择，直接影响主机异常行为检测模型的优劣。

2、主机内部的恶意软件在执行攻击行为时，要通过调用一系列的api(applicationprogramming interface，应用程序接口)来实现(可参考：darshan s,kumara m,jaidhar cd.windows malware detection based on cuckoo sandbox generated report usingmachine learning algorithm[c]//2016 11th international conference onindustrial and information systems(iciis).2016:534-549)。因此，很多主机异常行为检测数据集都是由api调用

3、目前基于主机异常行为检测数据集的特征提取方式，效果较好的方式是首先利用word2vec方法对数据集进行向量化处理，而后使用聚类算法对数据进行字典映射(可参考：李橙，罗森林.基于系统调用行为相似性聚类的主机入侵检测方法研究[j].信息安全研究，2021，007(009)：p.828-835)。该方法在特定的主机异常行为检测数据集(adfa-wd数据集)取得了较好的检测效果，但是泛化性不足，在其他数据集上，经过特征提取后，检测模型的准确率明显下降。

4、现有的主机异常行为检测数据集特征提取方式，均存在特征提取效果不好导致检测模型可用性不佳的问题，同时，部分方法只能针对特定的数据集进行特征提取，泛化性较低，难以应对日趋复杂的数据集。

技术实现思路

1、为了提高特征提取后主机异常行为检测模型的可用性，同时增强数据特征提取技术的泛化性。本专利技术提出了一种主机异常行为数据集特征提取方法，主机异常行为数据集中的数据为api序列，包括如下步骤：

2、步骤s1.将主机异常行为数据集按照设定的比例划分为训练集和测试集；

3、步骤s2.将训练集的数据去标签后输入到gpt模型中进行预训练；

4、步骤s3.依据损失函数对gpt模型进行微调；

5、步骤s4.将训练集的数据输入训练后的gpt模型，得到特征化的词嵌入向量；

6、步骤s5.将特征化的词嵌入向量输入k-means模型；

7、步骤s6.利用轮廓系数法，确定k-means模型的最大聚类簇数，完成对k-means模型的训练；

8、步骤s7.将测试集数据按照先后顺序输入训练后的gpt模型和k-means模型，得到特征提取后的api序列。

9、进一步地，步骤s2包括：根据数据情况，设置gpt模型的词嵌入维度和gpt模型的解码器层数，设置训练集的迭代次数，设置每次gpt模型输入的样本数，使用gpt模型的解码器逐层进行运算，输出相应的含有特征信息的向量矩阵，gpt模型将所述向量矩阵与词嵌入矩阵进行矩阵乘法运算，输出预测值。

10、进一步地，在步骤s2中：将gpt模型的词嵌入维度设置为768，将解码器层数设置为6，将训练集的迭代次数设置为40，每次gpt模型输入的样本数设置为32，利用无标签数据对gpt模型进行训练。

11、进一步地，步骤s3包括：将gpt模型输出的预测特征词向量与输入的特征词向量的交叉熵作为训练的损失函数，gpt模型对特征词向量第i位置预测词的输出为概率分布，损失函数为：

12、

13、其中，j(θ)是损失函数，j是有标签数据的维度，i是输入特征词位置，表示第i个位置的有标签数据，θ是gpt模型预测输出词，we是特征词向量矩阵，wp是特征词位置矩阵，wtransformer是解码器输出的含有特征信息的向量矩阵，n是输入的特征词长度，m是特征词数量，

14、使用以下公式进行计算：

15、

16、按照预定的模型迭代次数进行运算，每次对学习率进行人为调整设定，得到新的运算参数θt，最终，取θt最小时的值作为损失函数的参数，其中，gt是损失函数的梯度，t是训练模型输入的样本大小，是函数j(θt-1)的梯度，α是在实验开始前在模型设定的学习率，θt是下降梯度。

17、进一步地，步骤s6包括：

18、步骤k1.随机选择k个样本作为聚类中心；

19、步骤k2.针对数据集的样本，计算数据集中的数据点到k个聚类中心的距离，之后将数据点分类在距离最小的聚类中心所对应的簇中；

20、步骤k3.针对每个簇，再次计算每个簇的聚类中心，使不同簇之间的距离不断减小；

21、步骤k4.利用公式：

22、

23、计算每个数据点的轮廓系数，对所有数本文档来自技高网...

【技术保护点】

1.一种主机异常行为数据集特征提取方法，主机异常行为数据集中的数据为API序列，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种主机异常行为数据集特征提取方法，其特征在于，步骤S2包括：根据数据情况，设置GPT模型的词嵌入维度和GPT模型的解码器层数，设置训练集的迭代次数，设置每次GPT模型输入的样本数，使用GPT模型的解码器逐层进行运算，输出相应的含有特征信息的向量矩阵，GPT模型将所述向量矩阵与词嵌入矩阵进行矩阵乘法运算，输出预测值。

3.根据权利要求2所述的一种主机异常行为数据集特征提取方法，其特征在于，在步骤S2中：将GPT模型的词嵌入维度设置为768，将解码器层数设置为6，将训练集的迭代次数设置为40，每次GPT模型输入的样本数设置为32，利用无标签数据对GPT模型进行训练。

4.根据权利要求2所述的一种主机异常行为数据集特征提取方法，其特征在于，步骤S3包括：将GPT模型输出的预测特征词向量与输入的特征词向量的交叉熵作为训练的损失函数，GPT模型对特征词向量第i位置预测词的输出为概率分布，损失函数为：

5.根据权

...

【技术特征摘要】

1.一种主机异常行为数据集特征提取方法，主机异常行为数据集中的数据为api序列，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种主机异常行为数据集特征提取方法，其特征在于，步骤s2包括：根据数据情况，设置gpt模型的词嵌入维度和gpt模型的解码器层数，设置训练集的迭代次数，设置每次gpt模型输入的样本数，使用gpt模型的解码器逐层进行运算，输出相应的含有特征信息的向量矩阵，gpt模型将所述向量矩阵与词嵌入矩阵进行矩阵乘法运算，输出预测值。

3.根据权利要求2所述的一种主机异常行为数据集特征提取方法，...

【专利技术属性】
技术研发人员：庄洪林，李博宇，贾业涛，潘璠，孙贺，曹籽文，
申请(专利权)人：中国人民解放军军事科学院系统工程研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人