System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种主机异常行为数据集特征提取方法技术_技高网

一种主机异常行为数据集特征提取方法技术

技术编号:41250358 阅读:4 留言:0更新日期:2024-05-09 23:59
本发明专利技术属于网络安全技术领域,具体涉及一种主机异常行为数据集特征提取方法,主机异常行为数据集中的数据为API序列,包括如下步骤:将主机异常行为数据集按照设定的比例划分为训练集和测试集;将训练集的数据去标签后输入到GPT模型中进行预训练;依据损失函数对GPT模型进行微调;将训练集的数据输入训练后的GPT模型,得到特征化的词嵌入向量;将特征化的词嵌入向量输入k‑means模型;利用轮廓系数法,确定k‑means模型的最大聚类簇数,完成对k‑means模型的训练;将测试集数据按照先后顺序输入训练后的GPT模型和k‑means模型,得到特征提取后的API序列。本发明专利技术提高了主机异常行为检测模型的可用性,增强了数据特征提取技术的泛化性,提高异常行为检测的准确率,降低误报率。

【技术实现步骤摘要】

本专利技术属于网络安全,具体涉及一种主机异常行为数据集特征提取方法


技术介绍

1、网络攻击通常采取非法修改注册表等关键配置信息、开启特定敏感服务与端口、安装木马或后门等手段,对网络主机进行控制,进而实施信息窃取和扰乱破坏。因此,开展主机安全检测,及时发现网络安全威胁显得尤为重要。主机安全防护领域,基于人工智能的主机异常行为检测技术,具有不依赖人工制定规则、特征发现效果好、检测效率高、发现未知攻击能力强等优势,已经成为当前网络安全的研究热点。主机异常行为检测的流程见图1。可以看到,因为人工智能分类模型的效果取决于数据特征表达的质量,所以数据特征选择和特征提取是进行分类检测的关键前置步骤,对主机异常行为检测数据集特征提取技术的选择,直接影响主机异常行为检测模型的优劣。

2、主机内部的恶意软件在执行攻击行为时,要通过调用一系列的api(applicationprogramming interface,应用程序接口)来实现(可参考:darshan s,kumara m,jaidhar cd.windows malware detection based on cuckoo sandbox generated report usingmachine learning algorithm[c]//2016 11th international conference onindustrial and information systems(iciis).2016:534-549)。因此,很多主机异常行为检测数据集都是由api调用序列构成的。在系统调用序列的处理过程中,可以将单条序列看作自然语言的一篇文档,序列中按序出现的api则可以看作是文档中的单词。因此,针对系统调用序列处理问题,可以采取自然语言处理中常用的特征提取方法,如词袋模型、n-gram、tf-idf和word2vec。比较早期使用词袋模型对数据集进行特征提取,处理后的数据上下文信息有丢失,且数据的维度高、可用性差(可参考:张云帆,周宇,黄志球.基于语义相似度的api使用模式推荐[j].计算机科学,2020,47(03):34-40)。n-gram使用一个固定长度的滑动窗口来扫描整条系统调用序列,提取序列中所有的片段,该方法处理后的数据(可参考:uppal d,sinha r,mehra v,et al.malware detection and classification basedon extraction of api sequences[c]//2014international conference on advancesin computing,communications and informatics(icacci).ieee,2014:2337-2342)误报率较高。tf-idf利用加权技术和统计特征提取数据集信息,数据处理后的可用性提升,但是效率较低。word2vec是一组用于生成词向量的浅层神经网络模型,该方法用来处理系统调用信息往往造成特征提取混淆,影响主机异常行为检测的准确率,需要与其他方法结合。

3、目前基于主机异常行为检测数据集的特征提取方式,效果较好的方式是首先利用word2vec方法对数据集进行向量化处理,而后使用聚类算法对数据进行字典映射(可参考:李橙,罗森林.基于系统调用行为相似性聚类的主机入侵检测方法研究[j].信息安全研究,2021,007(009):p.828-835)。该方法在特定的主机异常行为检测数据集(adfa-wd数据集)取得了较好的检测效果,但是泛化性不足,在其他数据集上,经过特征提取后,检测模型的准确率明显下降。

4、现有的主机异常行为检测数据集特征提取方式,均存在特征提取效果不好导致检测模型可用性不佳的问题,同时,部分方法只能针对特定的数据集进行特征提取,泛化性较低,难以应对日趋复杂的数据集。


技术实现思路

1、为了提高特征提取后主机异常行为检测模型的可用性,同时增强数据特征提取技术的泛化性。本专利技术提出了一种主机异常行为数据集特征提取方法,主机异常行为数据集中的数据为api序列,包括如下步骤:

2、步骤s1.将主机异常行为数据集按照设定的比例划分为训练集和测试集;

3、步骤s2.将训练集的数据去标签后输入到gpt模型中进行预训练;

4、步骤s3.依据损失函数对gpt模型进行微调;

5、步骤s4.将训练集的数据输入训练后的gpt模型,得到特征化的词嵌入向量;

6、步骤s5.将特征化的词嵌入向量输入k-means模型;

7、步骤s6.利用轮廓系数法,确定k-means模型的最大聚类簇数,完成对k-means模型的训练;

8、步骤s7.将测试集数据按照先后顺序输入训练后的gpt模型和k-means模型,得到特征提取后的api序列。

9、进一步地,步骤s2包括:根据数据情况,设置gpt模型的词嵌入维度和gpt模型的解码器层数,设置训练集的迭代次数,设置每次gpt模型输入的样本数,使用gpt模型的解码器逐层进行运算,输出相应的含有特征信息的向量矩阵,gpt模型将所述向量矩阵与词嵌入矩阵进行矩阵乘法运算,输出预测值。

10、进一步地,在步骤s2中:将gpt模型的词嵌入维度设置为768,将解码器层数设置为6,将训练集的迭代次数设置为40,每次gpt模型输入的样本数设置为32,利用无标签数据对gpt模型进行训练。

11、进一步地,步骤s3包括:将gpt模型输出的预测特征词向量与输入的特征词向量的交叉熵作为训练的损失函数,gpt模型对特征词向量第i位置预测词的输出为概率分布,损失函数为:

12、

13、其中,j(θ)是损失函数,j是有标签数据的维度,i是输入特征词位置,表示第i个位置的有标签数据,θ是gpt模型预测输出词,we是特征词向量矩阵,wp是特征词位置矩阵,wtransformer是解码器输出的含有特征信息的向量矩阵,n是输入的特征词长度,m是特征词数量,

14、使用以下公式进行计算:

15、

16、按照预定的模型迭代次数进行运算,每次对学习率进行人为调整设定,得到新的运算参数θt,最终,取θt最小时的值作为损失函数的参数,其中,gt是损失函数的梯度,t是训练模型输入的样本大小,是函数j(θt-1)的梯度,α是在实验开始前在模型设定的学习率,θt是下降梯度。

17、进一步地,步骤s6包括:

18、步骤k1.随机选择k个样本作为聚类中心;

19、步骤k2.针对数据集的样本,计算数据集中的数据点到k个聚类中心的距离,之后将数据点分类在距离最小的聚类中心所对应的簇中;

20、步骤k3.针对每个簇,再次计算每个簇的聚类中心,使不同簇之间的距离不断减小;

21、步骤k4.利用公式:

22、

23、计算每个数据点的轮廓系数,对所有数本文档来自技高网...

【技术保护点】

1.一种主机异常行为数据集特征提取方法,主机异常行为数据集中的数据为API序列,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种主机异常行为数据集特征提取方法,其特征在于,步骤S2包括:根据数据情况,设置GPT模型的词嵌入维度和GPT模型的解码器层数,设置训练集的迭代次数,设置每次GPT模型输入的样本数,使用GPT模型的解码器逐层进行运算,输出相应的含有特征信息的向量矩阵,GPT模型将所述向量矩阵与词嵌入矩阵进行矩阵乘法运算,输出预测值。

3.根据权利要求2所述的一种主机异常行为数据集特征提取方法,其特征在于,在步骤S2中:将GPT模型的词嵌入维度设置为768,将解码器层数设置为6,将训练集的迭代次数设置为40,每次GPT模型输入的样本数设置为32,利用无标签数据对GPT模型进行训练。

4.根据权利要求2所述的一种主机异常行为数据集特征提取方法,其特征在于,步骤S3包括:将GPT模型输出的预测特征词向量与输入的特征词向量的交叉熵作为训练的损失函数,GPT模型对特征词向量第i位置预测词的输出为概率分布,损失函数为:

5.根据权利要求4所述的一种主机异常行为数据集特征提取方法,其特征在于,步骤S6包括:

...

【技术特征摘要】

1.一种主机异常行为数据集特征提取方法,主机异常行为数据集中的数据为api序列,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种主机异常行为数据集特征提取方法,其特征在于,步骤s2包括:根据数据情况,设置gpt模型的词嵌入维度和gpt模型的解码器层数,设置训练集的迭代次数,设置每次gpt模型输入的样本数,使用gpt模型的解码器逐层进行运算,输出相应的含有特征信息的向量矩阵,gpt模型将所述向量矩阵与词嵌入矩阵进行矩阵乘法运算,输出预测值。

3.根据权利要求2所述的一种主机异常行为数据集特征提取方法,...

【专利技术属性】
技术研发人员:庄洪林李博宇贾业涛潘璠孙贺曹籽文
申请(专利权)人:中国人民解放军军事科学院系统工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1