基于日志记录的异常行为组合识别方法及系统技术方案

技术编号:39842473 阅读:7 留言:0更新日期:2023-12-29 16:29
本发明专利技术公开了基于日志记录的异常行为组合识别方法及系统,方法包括:提取系统操作日志数据;以预处理后的日志数据的账号为分析对象,生成账号维度的标签

【技术实现步骤摘要】
基于日志记录的异常行为组合识别方法及系统


[0001]本专利技术涉及计算机数据安全领域,具体涉及基于日志记录的异常行为组合识别方法及系统


技术介绍

[0002]随着互联网技术及应用快速发展,互联网行为日志数据也处于高速增长,与此同时数据安全也越来越重要,面对海量系统日志数据,如何快速识别有问题行为组合,是有效发现数据泄露手段之一

目前现有技术处理海量日志数据需要大量的计算资源和时间,因为日志数据的规模很大,许多方法在大规模数据上可能变得效率低下,导致分析过程变得耗时

当日志中包含多个维度的特征时,可能会出现维度爆炸的问题,即特征的组合数量会呈指数级增长

这使得在异常行为组合上进行分析和挖掘变得非常困难,可能会导致数据稀疏性问题

在大规模数据中,一些特征可能会在不同的上下文中频繁出现,导致发现的异常行为组合可能只是数据的常见模式,而不是真正的异常,这可能会降低方法的准确性

[0003]中国专利公开号
CN113901441A
公开了一种用户异常请求检测方法

装置

设备及存储介质,包括:获取预设时段内不同用户的请求频次数据,将每个用户的所述请求频次数据按照时间顺序进行排列生成时序序列;利用改进后的能够度量时序数据之间相似度的无监督算法对不同用户的所述时序序列进行处理,得到第一聚类结果;根据所述第一聚类结果中各个簇的用户数量确定在所述预设时段内存在异常请求的用户

该专利申请无法区分具体的异常行为,仅仅是将所述第一聚类结果中包含用户数量小于预设阈值的簇对应的用户确定为在所述预设时段内存在异常请求的用户,对存在异常请求的用户数量进行检测

因此该专利申请的方法无法解决海量数据异常行为识别,从而无法对大规模数据中在不同的上下文频繁出现的特征进行准确识别


技术实现思路

[0004]本专利技术所要解决的技术问题在于现有技术异常行为识别方法容易将大规模数据中在不同的上下文频繁出现的数据常见模式的特征误判为异常行为,从而识别结果不够准确

[0005]本专利技术通过以下技术手段解决上述技术问题的:基于日志记录的异常行为组合识别方法,包括以下步骤:
[0006]步骤一:提取系统操作日志数据并进行预处理得到数据集
data

[0007]步骤二:以预处理后的日志数据的账号为分析对象,根据每个账号的相邻日志之间的时间间隔判定两者是否属于同一个大类,若是,生成账号维度的标签
sessionID

[0008]步骤三:根据标签
sessionID
利用时序聚类算法对日志数据进行聚类,生成新类标签,按每个账号每个
sessionID
进行新类标签累加,生成标签
clusterID

[0009]步骤四:标签
sessionID
和标签
clusterID
进行标签字段拼接得到簇标签
label

[0010]步骤五:基于账号

簇标签
label、
序列内容对日志数据分析并合并得到处理后的
序列,将处理后的序列利用广义序列模式挖掘算法筛选出频繁项集,将识别的频繁项集添加到行为知识库;
[0011]步骤六:将待分析的行为组合在行为知识库中进行匹配,进行异常行为组合识别

[0012]进一步地,所述步骤一包括:
[0013]抽取预设时间内的系统操作日志数据,对每条日志记录标记唯一编码,将日志数据按照操作时间进行升序排列,得到数据集
data
,其中数据集
data
包括唯一编码

账号

操作时间

操作内容;根据操作内容,提取相应操作指令,形成数据集
data
的操作指令字段

[0014]进一步地,所述步骤二包括:
[0015]根据数据集
data
,选取系统操作日志数据中操作时间,以账号为分析对象,计算每个账号相邻两条日志记录之间时间间隔
Δ
t
,指定时间间隔阈值
T
,若
Δ
t
小于
T
,则相邻两条日志记录属于同一个大类,记录对应的标签
sessionID。
[0016]进一步地,所述步骤三包括:
[0017]提取每个账号的每个标签
sessionID
对象的时间间隔
Δ
t
,形成数组
Δ
t1,
Δ
t2,

,
Δ
t
n
,利用时序聚类算法对数组进行聚类,聚类类别设置成3类,得到不同记录时间间隔的类标签;
[0018]根据类标签,计算每类的时间间隔均值,按照均值大小进行升序排列,并按值从小到大赋以
0,1,2
,形成数据集
data
的新类标签;
[0019]基于新类标签,按每个账号每个标签
sessionID
进行新类标签累加,生成标签
clusterID。
[0020]进一步地,所述步骤五包括:
[0021]利用账号

簇标签
label
构建序列号,序列内容为账号

簇标签对应的操作指令,将同一簇标签
label
对应的操作指令按顺序进行合并,得到处理后的序列,将处理后的序列利用广义序列模式挖掘算法计算出各种序列组合置信度

支持度,根据设定的最小置信度

最小支持度筛选出频繁项集,将识别的频繁项集添加到行为知识库

[0022]进一步地,所述步骤六包括:
[0023]随着操作时间,利用系统操作日志数据不断更新行为知识库,将待分析的行为组合在行为知识库中进行匹配,如可以匹配到相应行为知识库内容,则认为是正常行为组合,反之,则认为行为组合非正常,进行对应行为账号告警

[0024]本专利技术还提供基于日志记录的异常行为组合识别系统,包括:
[0025]数据集获取模块,用于提取系统操作日志数据并进行预处理得到数据集
data

[0026]第一标签模块,用于以预处理后的日志数据的账号为分析对象,根据每个账号的相邻日志之间的时间间隔判定两者是否属于同一个大类,若是,生成账号维度的标签
sessionID

[0027]第二标签模块,用于根据标签
sessionID
利用时序聚类算法对日志数据进行聚类,生成新类标签,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于日志记录的异常行为组合识别方法,其特征在于,包括以下步骤:步骤一:提取系统操作日志数据并进行预处理得到数据集
data
;步骤二:以预处理后的日志数据的账号为分析对象,根据每个账号的相邻日志之间的时间间隔判定两者是否属于同一个大类,若是,生成账号维度的标签
sessionID
;步骤三:根据标签
sessionID
利用时序聚类算法对日志数据进行聚类,生成新类标签,按每个账号每个
sessionID
进行新类标签累加,生成标签
clusterID
;步骤四:标签
sessionID
和标签
clusterID
进行标签字段拼接得到簇标签
label
;步骤五:基于账号

簇标签
label、
序列内容对日志数据分析并合并得到处理后的序列,将处理后的序列利用广义序列模式挖掘算法筛选出频繁项集,将识别的频繁项集添加到行为知识库;步骤六:将待分析的行为组合在行为知识库中进行匹配,进行异常行为组合识别
。2.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤一包括:抽取预设时间内的系统操作日志数据,对每条日志记录标记唯一编码,将日志数据按照操作时间进行升序排列,得到数据集
data
,其中数据集
data
包括唯一编码

账号

操作时间

操作内容;根据操作内容,提取相应操作指令,形成数据集
data
的操作指令字段
。3.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤二包括:根据数据集
data
,选取系统操作日志数据中操作时间,以账号为分析对象,计算每个账号相邻两条日志记录之间时间间隔
Δ
t
,指定时间间隔阈值
T
,若
Δ
t
小于
T
,则相邻两条日志记录属于同一个大类,记录对应的标签
sessionID。4.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤三包括:提取每个账号的每个标签
sessionID
对象的时间间隔
Δ
t
,形成数组
Δ
t1,
Δ
t2,

,
Δ
t
n
,利用时序聚类算法对数组进行聚类,聚类类别设置成3类,得到不同记录时间间隔的类标签;根据类标签,计算每类的时间间隔均值,按照均值大小进行升序排列,并按值从小到大赋以
0,1,2
,形成数据集
data
的新类标签;基于新类标签,按每个账号每个标签
sessionID
进行新类标签累加,生成标签
clusterID。5.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤五包括:利用账号

簇标签
label
构建序列号,序列内容为账号

簇标签对应的操作指令,将同一簇标签
label
对应的操作指令按顺序进行合并,得到处理后的序列,将处理后的序列利用广义序列模式挖掘算法计算出各种序列组合置信度

支持度,根据设定的最小置信度

...

【专利技术属性】
技术研发人员:殷钱安
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1