一种基于行为序列和语言模型的攻击调查方法技术

技术编号：40420013 阅读：5 留言：0更新日期：2024-02-20 22:38

本发明专利技术公开一种基于行为序列和语言模型的攻击调查方法，通过将审计日志构建为行为序列，利用基于transformer的深度双向预训练模型(BERT)对行为序列进行自监督学习，并通过微调的方式实现攻击行为序列和正常行为序列的分类任务。包括：行为序列生成，从行为依赖图中抽取行为依赖子图，将子图转换为行为序列并利用词性还原方法对序列进行处理；预训练模型，采用自监督的方式对未标注的行为序列进行表示学习；针对下游任务微调，利用标注的数据对模型进行微调，得到训练后的模型，实现行为序列的分类任务。本发明专利技术通过构造基于行为序列和语言模型的方法，为攻击调查提供了新的设计思路。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于日志分析领域，尤其涉及语言模型和基于审计日志的攻击调查。

技术介绍

1、大型企业和组织中的安全事件呈不断上升趋势，以高级可持续威胁为代表的复杂攻击成为企业和组织主要的威胁。为了应对这些威胁，企业部署威胁检测软件，例如入侵防御软件(ips)和安全信息和事件管理(siem)工具等。这些软件持续监控企业范围内的活动，捕获系统执行的行为和状态，并在发现可疑活动时生成威胁警报。网络安全分析师会对这些事件进行响应，通过溯源分析或者因果分析等方法筛选这些警报，发现攻击的根本原因及其损害范围。然而，上述的自动化软件往往采用简单的匹配方法从而导致较高的误报率，使得安全分析人员需要花费大量的时间筛选这些警报，无法及时发现真正的攻击。除此之外，apt攻击具有隐蔽性，很容易绕过这些自动检测工具并潜伏下来，而分析单个事件很难发现这些伪装的攻击行为。

2、为了克服上述不足，最近的工作考虑了ioc之间的关联性和告警事件的上下文信息。事实上，关联性和上下文信息包含了攻击者的行为和目标，其与正常用户的行为和目标具有很大差异并且很难隐藏。攻击调查通过离线分析告警事件的上下文信息从而自动分析告警的真实性减少误报，同时通过对历史审计日志的分析发现未被检测到威胁行为。一些攻击调查的解决方案，如匹配规则知识库或使用标签策略，都需要领域专家的手工参与，而专家知识的完整性和准确性将影响分析结果。

3、针对上述问题，nodoze基于与攻击相关的审计事件很少发生，构建了事件频率库来替代规则知识库。但为了避免被检测，攻击者会伪装成正常行为或使用

4、预训练语言模型已被证明对提高许多自然语言处理任务是有效的。基于预训练的方法对大量的未标记的数据进行表示学习，并通过对一定数量的标记数据，可以很容易的通过基于微调或者基于特征的方法将这些数据表示形式转移到下游任务中，但是这些语言模型都是单向的，在处理字符等级的任务时无法考虑两个方向的上下文。

技术实现思路

1、本专利技术提出一种基于行为序列和语言模型的攻击调查方法，该方法从基于审计日志构建的行为依赖图中生成事件的行为序列，利用基于transformer的深度双向预训练语言模型对序列中的行为进行表示学习，并通过标记的数据，学习正常行为序列和攻击行为序列，实现攻击行为事件的分析与发现。

2、本专利技术提供一种基于行为序列和语言模型的攻击调查方法，包括以下步骤：

3、1)从审计日志中抽取实体和实体之间的关系，构建行为依赖图，图中的节点表示审计日志中的实体，有向边表示实体之间的关系；

4、2)分别以攻击行为事件和正常行为事件为起点，在行为依赖图进行向前向后的遍历，生成包含该行为事件上下文信息的子图，对子图进行优化，合并相似行为和节点；

5、3)基于抽取的行为依赖子图生成行为序列，并基于自然语言处理中的词形还原思想对行为序列中的实体进行处理并保留实体的特征；

6、4)使用基于transformer的深度双向预训练模型(bert)对行为序列进行表示学习，得到序列中实体和行为的向量表示，通过标注的行为序列，对模型进行微调将模型应用于下游的分类任务，实现攻击序列的发现，从而减少误报或者发现未知的攻击行为。

7、进一步地，所述行为序列产生和语言模型构建与训练包括：

8、a)行为依赖图是一种从审计日志中提取的图数据结构，表示实体之间的因果关系，依赖图由节点和有向边组成，节点表示审计日志中的实体例如进程、文件等，有向边表示行为例如读、连接等；

9、b)从行为事件出发使用深度优先遍历(dfs)的方法从依赖图中抽取该行为事件的上下文信息，针对攻击行为事件的深度优先遍历(dfs)中止条件为正常的实体，针对正常行为事件的深度优先遍历(dfs)中止条件为攻击实体，随后对生成的子图进行优化，将时间接近且相似的事件进行合并；

10、c)按时间顺序将子图转化为行为序列，序列中的行为事件表示为(ei,actioni,ej)，其中ei和ej表示具体的实体，actioni表示实体之间的行为，基于自然语言处理中词形还原的思想，对序列中的实体进行映射：

11、

12、其中e'i保留了实体的基本特征，例如文件类型进程名称等，该过程保留了序列的特征，有利于基于行为序列的学习；

13、d)构建基于transformer的深度双向预训练模型，并设计预训练任务，模型的输入是大量经过令牌化的无标记行为序列，输入的序列中随机遮盖15％的令牌，其中10％将会被随机替换，被遮盖的令牌由特殊令牌[mask]取代，模型被训练为基于上下文预测被遮盖位置的令牌；

14、e)针对下游任务，向模型输入标注的行为序列，并基于分类任务对预训练模型进行微调，实现攻击行为序列与正常行为序列的分类。

15、进一步地，步骤1)实体类型有三类，包括进程、文件、和ip地址，实体之间的关系表示操作，例如进程对文件的读写(read and write)，进程连接(connect)ip地址等；

16、进一步地，步骤2)中以攻击行为事件为起点的向前深度遍历过程中，当遍历到的行为事件的起始节点为正常行为时截止，向后深度遍历则事件的结束节点为正常行为时截止，以正常行为事件为起点的深度遍历则与攻击行为事件相反；

17、进一步地，步骤2)中将较短时间内某个实体对另一个实体的多个行为进行合并，对于某个实体较短时间内对多个相似实体的操作，则将这些实体进行合并，实现对依赖子图的优化；

18、进一步地，步骤3)中主要根据实体的特征进行词形还原，包括去掉进程id，将文件按照文件类型进行映射，其保留了实体的基本特征，有利于模型对序列的表示学习；

19、利用本专利技术的方法可以有效地减少自动化威胁检测软件的误报率，并且发现隐藏的攻击行为，与现有方法相比：

20、1、本专利技术提出了基于行为序列和语言模型的攻击调查方法，能够充分考虑行为事件的上下文信息，通过对行为序列进行自监督学习，减少了对标记数据的依赖，针对下游任务利用学习到的数据表示对模型进行微调，能够学习到句子级别的特征，在识别攻击序列上取得较好的效果；

21、2、本专利技术提出了实体的词形还原方法，能够大幅度减少词典的大小并保留实体在系统层的特征，有利于模型对行为序列的表示学习；

22、3、本专利技术使用基于transformer的深度双向预训练模型，并基于掩码语言模型设计预训练任务，其相较于其他语言模型能够同时本文档来自技高网...

【技术保护点】

1.一种基于行为序列和语言模型的攻击调查方法，其特征在于，包括：

2.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，从审计日志中抽取行为依赖图并生成行为序列，包括：

3.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，对所述行为序列进行令牌化，设计预训练任务，包括：

4.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，微调预训练语言模型，包括：

5.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，对未知事件进行判断，包括：

6.一种基于行为序列和语言模型的攻击调查装置，其特征在于，包括：

7.根据权利要求6所述的一种基于行为序列和语言模型的攻击调查装置，其特征在于，所述行为序列生成模块包括：

8.根据权利要求6所述的一种基于行为序列和语言模型的攻击调查装置，其特征在于，所述语言模型预训练模块包括：

9.一种电子设备，包括存储器和处理器，所述存储器还存储有可由所述处理器执行的计算机指

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，实现所述如权利要求1至6任一项所述的处理方法。

...

【技术特征摘要】

1.一种基于行为序列和语言模型的攻击调查方法，其特征在于，包括：

2.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，从审计日志中抽取行为依赖图并生成行为序列，包括：

3.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，对所述行为序列进行令牌化，设计预训练任务，包括：

4.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，微调预训练语言模型，包括：

5.根据权利要求1所述的一种基于行为序列和语言模型的攻击调查方法，其特征在于，对未知事件进行判断，包括：

6.一种基于行为序列和语言模...

【专利技术属性】
技术研发人员：胡威，高雅婷，赵金梦，王景初，尚智婕，李家威，张茹，刘建毅，陈连栋，程凯，
申请(专利权)人：国家电网有限公司信息通信分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人