【技术实现步骤摘要】
基于日志记录的异常行为组合识别方法及系统
[0001]本专利技术涉及计算机数据安全领域,具体涉及基于日志记录的异常行为组合识别方法及系统
。
技术介绍
[0002]随着互联网技术及应用快速发展,互联网行为日志数据也处于高速增长,与此同时数据安全也越来越重要,面对海量系统日志数据,如何快速识别有问题行为组合,是有效发现数据泄露手段之一
。
目前现有技术处理海量日志数据需要大量的计算资源和时间,因为日志数据的规模很大,许多方法在大规模数据上可能变得效率低下,导致分析过程变得耗时
。
当日志中包含多个维度的特征时,可能会出现维度爆炸的问题,即特征的组合数量会呈指数级增长
。
这使得在异常行为组合上进行分析和挖掘变得非常困难,可能会导致数据稀疏性问题
。
在大规模数据中,一些特征可能会在不同的上下文中频繁出现,导致发现的异常行为组合可能只是数据的常见模式,而不是真正的异常,这可能会降低方法的准确性
。
[0003]中国专利公开号
CN113901441A
公开了一种用户异常请求检测方法
、
装置
、
设备及存储介质,包括:获取预设时段内不同用户的请求频次数据,将每个用户的所述请求频次数据按照时间顺序进行排列生成时序序列;利用改进后的能够度量时序数据之间相似度的无监督算法对不同用户的所述时序序列进行处理,得到第一聚类结果;根据所述第一聚类结果中各个簇的用户数量确定在所述预设时段内存在异常请求的 ...
【技术保护点】
【技术特征摘要】
1.
基于日志记录的异常行为组合识别方法,其特征在于,包括以下步骤:步骤一:提取系统操作日志数据并进行预处理得到数据集
data
;步骤二:以预处理后的日志数据的账号为分析对象,根据每个账号的相邻日志之间的时间间隔判定两者是否属于同一个大类,若是,生成账号维度的标签
sessionID
;步骤三:根据标签
sessionID
利用时序聚类算法对日志数据进行聚类,生成新类标签,按每个账号每个
sessionID
进行新类标签累加,生成标签
clusterID
;步骤四:标签
sessionID
和标签
clusterID
进行标签字段拼接得到簇标签
label
;步骤五:基于账号
、
簇标签
label、
序列内容对日志数据分析并合并得到处理后的序列,将处理后的序列利用广义序列模式挖掘算法筛选出频繁项集,将识别的频繁项集添加到行为知识库;步骤六:将待分析的行为组合在行为知识库中进行匹配,进行异常行为组合识别
。2.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤一包括:抽取预设时间内的系统操作日志数据,对每条日志记录标记唯一编码,将日志数据按照操作时间进行升序排列,得到数据集
data
,其中数据集
data
包括唯一编码
、
账号
、
操作时间
、
操作内容;根据操作内容,提取相应操作指令,形成数据集
data
的操作指令字段
。3.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤二包括:根据数据集
data
,选取系统操作日志数据中操作时间,以账号为分析对象,计算每个账号相邻两条日志记录之间时间间隔
Δ
t
,指定时间间隔阈值
T
,若
Δ
t
小于
T
,则相邻两条日志记录属于同一个大类,记录对应的标签
sessionID。4.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤三包括:提取每个账号的每个标签
sessionID
对象的时间间隔
Δ
t
,形成数组
Δ
t1,
Δ
t2,
…
,
Δ
t
n
,利用时序聚类算法对数组进行聚类,聚类类别设置成3类,得到不同记录时间间隔的类标签;根据类标签,计算每类的时间间隔均值,按照均值大小进行升序排列,并按值从小到大赋以
0,1,2
,形成数据集
data
的新类标签;基于新类标签,按每个账号每个标签
sessionID
进行新类标签累加,生成标签
clusterID。5.
根据权利要求1所述的基于日志记录的异常行为组合识别方法,其特征在于,所述步骤五包括:利用账号
、
簇标签
label
构建序列号,序列内容为账号
、
簇标签对应的操作指令,将同一簇标签
label
对应的操作指令按顺序进行合并,得到处理后的序列,将处理后的序列利用广义序列模式挖掘算法计算出各种序列组合置信度
、
支持度,根据设定的最小置信度
、
...
【专利技术属性】
技术研发人员:殷钱安,
申请(专利权)人:上海观安信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。