一种主机操作指令异常识别的方法及系统技术方案

技术编号：24122248 阅读：19 留言：0更新日期：2020-05-13 03:26

本发明专利技术提供一种主机操作指令异常识别的方法及系统，包括S1.样本数据提取；S2.数据处理；得到行为序列记录和每个主机操作指令使用频次；S3：非常用指令筛选，得到目标操作指令序列；S4：紧凑预测树训练，得到目标紧凑预测树；S5：紧凑预测树预测，得到带有标签的训练数据集；S6：利用word2vec训练操作指令向量，形成预训练向量；S7：利用Bi‑LSTM建立分类识别模型；S8：利用分类模型进行预测。本发明专利技术采用紧凑预测树对用户主机操作指令序列进行分析，研究指令行为序列之间的行为关系，从而判断用户主机操作指令是否异常。基于此，还充分考虑了用户操作指令之间的内在关系，研究了指令在时间维度的逻辑关系，提高主机操作指令异常的对象识别准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种主机操作指令异常识别的方法及系统
本专利技术涉及计算机数据安全，具体来说是一种主机操作指令异常识别的方法及系统。
技术介绍
计算机系统安全是信息安全的关键内容之一，它已成为计算机信息系统的核心技术，也是网络安全的重要基础和补充。现代信息技术不断发展，计算机应用涉及到各行各业。针对计算机信息安全，目前国家已建立了计算机网络信息安全机制,对信息安全等领域进行了安全保护,但面对使用程度之高的计算机,也是有一定的管理难度,在现阶段计算机网络信息安全防护体制尚未完备的情况下,计算机系统依然存在信息网络技术的威胁,如信息泄露、信息篡改等危险行为，对数据信息安全造成了安全隐患。如何有效地识别计算机系统内部危险操作行为，保护计算机系统内安全，仍是网络信息安全需要解决的问题之一。现有的异常数据挖掘方法主要有基于距离的方法、基于统计的方法、基于密度的方法和基于聚类的方法。国内外众多学者对这些方法理论进行了深入研究，并取得丰硕成果,但仍存在一些不足和缺陷。例如基于距离的方法中,距离函数与参数的选择存在一定困难；基于统计的方法中，要求预先知道数据的分布情况，但数据的分布函数难以预先获得；基于密度的方法中时间复杂度较大；基于聚类的方法主要侧重于聚类问题。这些问题限制了异常数据挖掘方法的应用，且主要处理确定性数据，对于不确定性的信息处理和离散序列数据缺乏有效的理论模型和方法，无法考虑到序列行为之间的内在逻辑关系。对于序列的异常检测方法，常用的马尔科夫模型和有向图模型，处理大型数据集，效率低。现有技术的分类识别...

【技术保护点】
1.一种主机操作指令异常识别的方法，其特征在于：包括以下步骤：/nS1.样本数据提取/n抽取指定时间周期系统操作指令日志数据作为原始样本数据；/nS2.数据处理/n基于S1提取的样本数据，以设定周期进行区分，处理成以用户主机账号为ID，设定周期与ID形成唯一索引，按时间顺序对指令进行排列，组合指令行为形成一条行为序列记录，/n根据S1得到的样本数据，统计每个主机操作指令使用频次；/nS3：非常用指令筛选/n对S2得到的操作指令频次，进行升序排列，对已排序频次数列筛选出小于设定阈值的操作指令，得到目标操作指令序列；/nS4：紧凑预测树训练/n将S2数据中行为序列记录输入转化成数组，利用紧凑预测树进行模型训练；得到目标紧凑预测树；/nS5：紧凑预测树预测/n根据S3筛选出来的目标操作指令序列，选取含有这些指令的用户账号及对应的行为序列记录，/n基于S4已训练的目标紧凑预测树，利用非常用指令S3筛选出来的目标操作指令序列，预测可能出现的多个指令，若预测指令集合不含有实际数据的非常用指令，则判断用户操作指令行为异常，最后得到带有标签的训练数据集；/nS6：利用word2vec训练操作指令向量/...

【技术特征摘要】
1.一种主机操作指令异常识别的方法，其特征在于：包括以下步骤：
S1.样本数据提取
抽取指定时间周期系统操作指令日志数据作为原始样本数据；
S2.数据处理
基于S1提取的样本数据，以设定周期进行区分，处理成以用户主机账号为ID，设定周期与ID形成唯一索引，按时间顺序对指令进行排列，组合指令行为形成一条行为序列记录，
根据S1得到的样本数据，统计每个主机操作指令使用频次；
S3：非常用指令筛选
对S2得到的操作指令频次，进行升序排列，对已排序频次数列筛选出小于设定阈值的操作指令，得到目标操作指令序列；
S4：紧凑预测树训练
将S2数据中行为序列记录输入转化成数组，利用紧凑预测树进行模型训练；得到目标紧凑预测树；
S5：紧凑预测树预测
根据S3筛选出来的目标操作指令序列，选取含有这些指令的用户账号及对应的行为序列记录，
基于S4已训练的目标紧凑预测树，利用非常用指令S3筛选出来的目标操作指令序列，预测可能出现的多个指令，若预测指令集合不含有实际数据的非常用指令，则判断用户操作指令行为异常，最后得到带有标签的训练数据集；
S6：利用word2vec训练操作指令向量
将S2得到的主机操作指令序列作为输入，利用word2vec算法进行预训练，形成预训练向量；
S7：利用Bi-LSTM建立分类识别模型
基于S6得到的预训练向量,将S5得到的训练数据集输入Bi-LSTM算法，训练成预测目标为是否异常的分类模型；
S8：利用分类模型进行预测。

2.根据权利要求1所述的一种主机操作指令异常识别的方法，其特征在于：所述步骤S3中利用分位数特点，对已排序频次数列筛选出小于设定阈值的操作指令。

3.根据权利要求1所述的一种主机操作指令异常识别的方法，其特征在于：所述步骤S5中，紧凑预测树预测步骤如下：
第一步：找到和目标操作指令序列相似的序列，通过以下几步查找：找到目标操作指令序列的唯一项；查找存在特定唯一项的序列ID集合；然后取所有唯一项集合的交集；
第二步：找到和目标操作指令序列相似的每个序列的后续序列，具体为：对于每个相似序列，后续序列定义为在相似序列中目标操作指令序列最后一项发生后，减去目标操作指令序列中存在的项之后的最长子序列；
第三步：把后续序列中的元素及其分值添加至分值字典中，根据紧凑预测树得到的分值字典，按分值进行降序排序，选取前设定个分值高的预测操作指令，如果实际操作指令不在预测指令内，则该账号操作为异常操作行为；对全部用户账号操作指令行为进行异常性判断，1表示标异常，0表示正常，形成带标签的训练数据集。

4.根据权利要求1至3任一所述的一种主机操作指令异常识别的方法，其特征在于：所述步骤S6中利用word2vec算法进行预训练的步骤如下：
第一步：将操作指令序列当作文本结构，每个操作指令对应文本中词；对输入的文本生成一个词汇表，每个词统计词频，按照词频从高到低排序，取最频繁的V个词，构成一个词汇表；每个词存在一个one-hot向量，向量的维度是V，如果该词在词汇表中出现过，则向量中词汇表中对应的位置为1，其他位置全为0；如果词汇表中不出现，则向量为全0；
第二步：将输入文本的每个词都生成一个one-hot向量，保留每个词的原始位置；
第三步：确定词向量的维数N；
第四步：确定词袋模型中窗口大小，批尺寸大小，采用softmax，神经网络迭代训练一定次数，得到输入层到隐藏层的参数矩阵，矩阵中每一行的转置即是对应词的词向量，即对应的指令的向量。

5.根据权利要求1至3任一所述的一种主机操作指令异常识别的方法，其特征在于：所述步骤S8的识别过程具体为，将待识别数据用步骤S2的方法处理得到行为序列记录，然后将行为序列记录通过步骤...

【专利技术属性】
技术研发人员：殷钱安，梁淑云，刘胜，马影，陶景龙，王启凡，魏国富，徐明，余贤喆，周晓勇，
申请(专利权)人：上海观安信息技术股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人