基于系统日志信息的智能入侵检测方法和系统技术方案

技术编号:34208317 阅读:12 留言:0更新日期:2022-07-20 12:28
本发明专利技术公开了一种基于系统日志信息的智能入侵检测方法和系统,本发明专利技术方法包括提取系统日志各条日志的模板常量信息L,及可变变量的值信息V和位置信息P;将模板常量信息L利用预训练语言模型得到模板常量向量l

Intelligent intrusion detection method and system based on system log information

【技术实现步骤摘要】
基于系统日志信息的智能入侵检测方法和系统


[0001]本专利技术涉及计算机系统安全技术,具体涉及一种基于系统日志信息的智能入侵检测方法和系统。

技术介绍

[0002]随着计算机相关技术的发展和互联网行业的兴起,越来越多的设备和系统接入互联网,系统在开放场景下的安全问题也受到了前所未有的关注,成为国家和社会的基础性安全。在众多系统安全防御技术中,入侵检测系统(IDS)是可以主动保护系统免受非法外部攻击的最重要工具之一。入侵检测系统通过监测系统关键信息,例如系统日志、文件系统、进程记录等,从内部感知系统是否收到攻击。
[0003]传统的基于规则的入侵检测方法,存在依赖于人工介入,规则数据库难以及时更新,难以检测未知入侵等缺点。近年来,人工智能已经成为我国乃至全球学术界和工业界的最关注的领域之一,已经在图像识别、自然语言处理等方面取巨大成就,利用人工智能技术革新入侵检测技术是入侵检测领域的发展趋势。因此,人工智能、系统安全相关领域的研究者开始探索利用系统中的各类关键数据进行入侵检测。
[0004]在系统的多类关键信息中,系统日志信息往往记录系统的运行时状态,反应系统程序的执行流程,它是检测系统状态,排除系统故障的重要手段。系统日志的本质是半结构化文本,存在模板常量部分与可变变量部分镶嵌排列的结构。而在自然语言处理领域,自然文本不存在可变变量如此丰富的特点。同时,从所含语义来看,日志文本中文本模式不会超出其原有模板的形式。基于日志信息的入侵检测系统的关键就是挖掘不同时刻的日志序列高效表征,并克服数据的不平衡分布。
[0005]根据表征方法的不同,目前针对基于日志信息的入侵检测问题的方法,可以分为两类:基于模板提取的方法和基于数字删除的方法。基于模板提取的方法是以各种不同原理的模板提取算法为基础,遍历日志同时获得对应的模板常量部分与可变变量部分,由于模板提取算法本身的误差,只保留模板常量部分组成日志序列,并使用自然语言处理技术将这些序列进行向量化表示作为日志信息的表征,最后,将准备好的向量化表征投入到下游模型中训练得到最终的入侵检测模型。基于数字删除的方法基于“只有数字是变量部分”的假设,将日志信息分离为数字部分与其他非数字部分,将数字部分处理为单一数字序列与其在原日志中的位置信息的组合,以此作为日志信息的表征。对于非数字部分,利用大规模预训练语言模型中丰富的信息知识与一定的容错机制来对其进行高效表征。在投入下游任务模型训练之前,通过注意力机制将数字部分的信息融入到非数字部分的信息中再进行下游任务训练。
[0006]基于模板提取的方法将日志信息归结为模板标志,使得下游入侵检测过程中可以序列生成的方法,从而实现单条日志级别的异常检测。然而,由于各类模板方法是在无充分先验知识的情况下采用比较的方法来提取日志的模板,在面对情况复杂的现实世界日志时往往会产生一些的误差,包括日志模板分配错误、日志模板提取不全等诸多问题。基于数字
删除的方法,以“只有数字是变量部分”的假设为前提,保证了日志信息表征的完整性。然而,未引入模板概念也使得异常检测粒度只能下沉至序列一级。
[0007]因此,现有基于日志信息的入侵检测方法中日志表征与异常粒度之间的矛盾。

技术实现思路

[0008]本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种基于系统日志信息的智能入侵检测方法和系统,本专利技术能够解决现有入侵检测方法中日志表征与异常粒度之间的矛盾,从而能够有效提高入侵检测的检测精确度,并确保入侵检测的检测效率。
[0009]为了解决上述技术问题,本专利技术采用的技术方案为:
[0010]一种基于系统日志信息的智能入侵检测方法,包括:
[0011]1)提取系统日志各条日志的模板常量信息L,及可变变量的值信息V和位置信息P;
[0012]2)将模板常量信息L利用预设的预训练语言模型得到模板常量向量l
const
,将值信息V进行向量化处理和截断补全后得到值信息向量v,将位置信息P进行向量化处理和截断补全后得到位置信息向量p;
[0013]3)将模板常量向量l
const
、值信息向量v以及位置信息向量p提取特征并进行特征融合得到多角度日志序列向量;
[0014]4)将所述多角度日志序列向量利用预设的分类器进行分类,得到序列分类结果。
[0015]可选地,步骤1)包括:针对系统日志的每一条日志,将删除全部数字后得到的仅含有字母的文本部分作为模板常量,并采用正则表达式提取系统日志中的数字部分作为单个可变变量,将所提取的数字部分的内容作为可变变量的值、将所提取的数字部分的位置作为可变变量的位置,从而得到由所有日志的模板常量组成的模板常量信息L、可变变量的值组成的可变变量的值信息V以及位置组成的可变变量的位置信息P。
[0016]可选地,步骤2)中的向量化处理和截断补全包括:首先将待处理的值信息V或位置信息P转换为数值向量;然后将数值向量修正到同一长度,所述修正到同一长度包括在数值向量超过指定长度时采用截断操作将靠前部分的指定长度的部分作为修正到同一长度后的内容,在数值向量低于指定长度时采用零值补全的操作将其填充到指定长度,且值信息向量v和位置信息向量p维度均为l
max
*d
v
,其中l
max
为最大日志长度,d
v
为单条日志中包含的最长可变变量的长度。
[0017]可选地,步骤3)包括:
[0018]3.1)将位置信息向量p生成高维位置信息向量;
[0019]3.2)基于注意力机制学习所述高维位置信息向量的特征,并与值信息向量v融合得到融合位置信息的高维值信息向量;
[0020]3.3)基于注意力机制学习提取所述融合位置信息的高维值信息向量的特征,并与模板常量向量l
const
融合得到融合可变信息的模板序列向量l;
[0021]3.4)对融合可变信息的模板序列向量l提取特征,得到多角度日志序列向量。
[0022]可选地,步骤3.1)中将位置信息向量p生成高维位置信息向量是指:将位置信息向量p通过预设的全连接网络生成维度为l
max
*d
m
的高维位置信息向量,其中l
max
为最大日志长度,d
m
为单条日志的表征向量长度。
[0023]可选地,步骤3.2)中融合得到融合位置信息的高维值信息向量包括:首先通过预
设的注意力机制网络计算高维位置信息向量相对于高维值信息向量的注意力值Attention1(Q,K,V),其公式如下:
[0024][0025]上式中,查询向量Q采用高维位置信息向量,键向量K和值向量V采用高维值信息,softmax表示softmax激活函数,d
k
表示键向量K的维度;然后将该注意力值Attention1(Q,K,V)与高维值信息向量两者求和得到维度为l
max
*d<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于系统日志信息的智能入侵检测方法,其特征在于,包括:1)提取系统日志各条日志的模板常量信息L,及可变变量的值信息V和位置信息P;2)将模板常量信息L利用预设的预训练语言模型得到模板常量向量l
const
,将值信息V进行向量化处理和截断补全后得到值信息向量v,将位置信息P进行向量化处理和截断补全后得到位置信息向量p;3)将模板常量向量l
const
、值信息向量v以及位置信息向量p提取特征并进行特征融合得到多角度日志序列向量;4)将所述多角度日志序列向量利用预设的分类器进行分类,得到序列分类结果。2.根据权利要求1所述的基于系统日志信息的智能入侵检测方法,其特征在于,步骤1)包括:针对系统日志的每一条日志,将删除全部数字后得到的仅含有字母的文本部分作为模板常量,并采用正则表达式提取系统日志中的数字部分作为单个可变变量,将所提取的数字部分的内容作为可变变量的值、将所提取的数字部分的位置作为可变变量的位置,从而得到由所有日志的模板常量组成的模板常量信息L、可变变量的值组成的可变变量的值信息V以及位置组成的可变变量的位置信息P。3.根据权利要求1所述的基于系统日志信息的智能入侵检测方法,其特征在于,步骤2)中的向量化处理和截断补全包括:首先将待处理的值信息V或位置信息P转换为数值向量;然后将数值向量修正到同一长度,所述修正到同一长度包括在数值向量超过指定长度时采用截断操作将靠前部分的指定长度的部分作为修正到同一长度后的内容,在数值向量低于指定长度时采用零值补全的操作将其填充到指定长度,且值信息向量v和位置信息向量p维度均为l
max
*d
v
,其中l
max
为最大日志长度,d
v
为单条日志中包含的最长可变变量的长度。4.根据权利要求1所述的基于系统日志信息的智能入侵检测方法,其特征在于,步骤3)包括:3.1)将位置信息向量p生成高维位置信息向量;3.2)基于注意力机制学习所述高维位置信息向量的特征,并与值信息向量v融合得到融合位置信息的高维值信息向量;3.3)基于注意力机制学习提取所述融合位置信息的高维值信息向量的特征,并与模板常量向量l
const
融合得到融合可变信息的模板序列向量l;3.4)对融合可变信息的模板序列向量l提取特征,得到多角度日志序列向量。5.根据权利要求4所述的基于系统日志信息的智能入侵检测方法,其特征在于,步骤3.1)中将位置信息向量p生成高维位置信息向量是指:将位置信息向量p通过预设的全连接网络生成维度为l
max
*d
m
的高维位置信息向量,其中l
max
为最大日志长度,d
m
为单条日志的表征向量长度。6.根据权利要...

【专利技术属性】
技术研发人员:蹇松雷于丰源黄辰林谭郁松李宝董攀丁滟任怡王晓川张建锋谭霜
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1