当前位置: 首页 > 专利查询>大连大学专利>正文

基于SGSE-ECC的日志异常检测系统技术方案

技术编号:26478465 阅读:40 留言:0更新日期:2020-11-25 19:22
基于SGSE‑ECC的日志异常检测系统,属于日志数据处理领域,为了解决对于日志分析的问题,时间窗口划分模块,用于根据信息系统对响应时间的要求确定时间窗口的大小;SGSE数据处理模块,用于将日志数据,根据时间窗口形成供ECC日志分析算法调用的样本数据;ECC模型训练模块,用于训练ECC日志分析模型;ECC日志分析模块,根据信息系统内各设备的日志数据,分析当前时间窗口下的信息系统的状态是否正常的,效果是能够对日志进行异常分析。

【技术实现步骤摘要】
基于SGSE-ECC的日志异常检测系统
本专利技术属于日志数据处理领域,涉及一种基于SGSE-ECC的日志异常检测系统。
技术介绍
随着互联网技术的发展,信息系统内各设备产生的日志数量也日渐增多,对由不同设备产生、数据特征不同的日志进行分析是运维工作的重要组成部分。通过自动化的手段对多源异构的日志数据进行分析,可以及时获知信息系统的运行状态为异常还是正常,确保信息系统安全、稳定的运行,进而降低企业的运维成本。当前的多源异构日志分析的技术方法中,使用了单一分析再聚合、关联分析等方法。在单一分析聚合的方法中,先分析信息系统内的单一设备中产生的日志,分析出每个设备的运行状态,再按照提前设定好的规则根据每个设备的状态判断整个信息系统是否存在异常情况。然而,此方法分析时没有将不同设备内的日志组合分析,而是单独判断了不同设备状态后再分析,不能挖掘出不同设备日志之间的关系。在关联分析的方法中,先根据日志中的各个字段内容生成特征事件,将一个时间窗口下不同设备产生的事件聚类后进行相似性比较,剔除同类事件。然后将不同设备的同类事件合并,最终生成各类事件的统计报告。然而,在此方法中,以生成各类事件的统计报告为目的,未能深度挖掘各类事件之间的关系直接呈现给用户,且只使用聚类算法无法精准对每个事件进行归类。当前的多源异构日志分析的技术方法中,使用了单一分析再聚合[1]、关联分析[2]等方法。在单一分析聚合的方法中,先分析信息系统内的单一设备中产生的日志,分析出每个设备的运行状态,再按照提前设定好的规则根据每个设备的状态判断整个信息系统是否存在异常情况。在关联分析的方法中,先根据日志中的各个字段内容生成特征事件,将一个时间窗口下不同设备产生的事件进行相似性比较,剔除同类事件。然后将不同设备的同类事件合并,最终生成各类事件的统计报告。基在单一分析聚合的方法中,没有将不同设备内的日志组合分析,而是单独判断了不同设备状态后再分析,不能挖掘出不同设备日志之间的关系。在关联分析的方法中,以生成各类事件的统计报告为目的,不能够深度挖掘各类事件之间的关系直接呈现给用户。
技术实现思路
为了解决对于日志分析的问题,本专利技术提出如下技术方案:一种基于SGSE-ECC的日志异常检测系统,包括:时间窗口划分模块,用于根据信息系统对响应时间的要求确定时间窗口的大小;SGSE数据处理模块,用于将日志数据,根据时间窗口形成供ECC日志分析算法调用的样本数据;ECC模型训练模块,用于训练ECC日志分析模型;ECC日志分析模块,根据信息系统内各设备的日志数据,分析当前时间窗口下的信息系统的状态是否正常的。进一步的,所述的SGSE数据处理模块,包括SG状态生成子模块,将各设备的日志数量统计生成日志数量状态子序列;将时间窗口内每个设备上产生的每个日志种类数量统计生成用户行为状态子序列;将时间窗口内每个设备某些重要字段中类型出现的次数进行数量统计生成字段状态子序列;SE顺序抽取子模块,在同一个时间窗口下顺序抽取一个子序列中的一个特征做为标签,与其他两个子序列的所有特征合并成一条样本,使任意一个子序列中的任意特征都有其他两个子序列中的所有特征与之对应,对一个时间窗口进行分析时,随机挑选每个子序列的一个特征组成三个标签代表受测时间窗口;进一步的,所述的ECC模型训练模块包括所述的ECC模型训练子模块的模型训练步骤如下:步骤1:将正常、异常时间窗口内的多源异构日志数据的日志数量统计生成日志数量状态子序列,将时间窗口内每个设备上产生的每个日志种类数量统计生成用户行为状态子序列,将时间窗口内每个设备某些重要字段中类型出现的次数进行数量统计生成字段状态子序列;步骤2:将每个时间窗口下日志数量状态子序列中的n个特征、用户行为状态子序列中的m个特征、字段状态子序列中的j个特征生成(n+m+j)个样本数据集;步骤3:将每个正常、异常时间窗口内日志数量状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:v1=1-v2(3)f(tableα)=v1*M′tableα+v2*M″tableα+bias(4)tableα代表着日志数量状态子序列中的某个特征做为标签时所对应的样本,tableα′代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,tableα″代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,Mtableα′为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,Mtableα″为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,bias为偏执,v1、v2分别为正常时间窗口、异常时间窗口均方误差的变化系数,训练时v1=v2;f(tableα)为受训练的时间窗口中日志数量状态子序列中的某个特征做为标签所计算的差异值;步骤4:将每个正常时间窗口通过式(1)-(4)与其他正常、异常时间窗口计算出差异值并保存为集合U1,将异常时间窗口通过式(1)-(4)与正常、异常时间窗口计算出差异值并保存为P1,得到正常时间窗口下日志数量状态子序列的置信区间σ(α)为σ(α)=[min(U1),max(U1)]∩[min(P1),max(P1)]步骤5:将每个正常、异常时间窗口内用户行为状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:v3=1-v4(7)f(tableβ)=v3*M′tableβ+v4*M″tableβ+bias(8)tableβ代表着用户行为状态子序列中的某个特征做为标签时所对应的样本,tableβ′代表正常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本,tableβ″代表异常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本,Mtableβ′为用户行为状态子序列中的某个特征做为标签时所对应的样本与代表正常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,Mtableβ″为用户行为状态子序列中的某个特征做为标签时所对应的样本与代表异常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,bias为偏执,v3、v4分别为正常时间窗口、异常时间窗口均方误差的变化系数,训练时v3=v4,f(tableβ)为受训练的时间窗口中用户行为状态子序列中的某个特征做为标签所计算的差异值;步骤6:将每个正常时间窗口通过本文档来自技高网
...

【技术保护点】
1.一种基于SGSE-ECC的日志异常检测系统,其特征在于,包括:/n时间窗口划分模块,用于根据信息系统对响应时间的要求确定时间窗口的大小;/nSGSE数据处理模块,用于将日志数据,根据时间窗口形成供ECC日志分析算法调用的样本数据;/nECC模型训练模块,用于训练ECC日志分析模型;/nECC日志分析模块,根据信息系统内各设备的日志数据,分析当前时间窗口下的信息系统的状态是否正常的。/n

【技术特征摘要】
1.一种基于SGSE-ECC的日志异常检测系统,其特征在于,包括:
时间窗口划分模块,用于根据信息系统对响应时间的要求确定时间窗口的大小;
SGSE数据处理模块,用于将日志数据,根据时间窗口形成供ECC日志分析算法调用的样本数据;
ECC模型训练模块,用于训练ECC日志分析模型;
ECC日志分析模块,根据信息系统内各设备的日志数据,分析当前时间窗口下的信息系统的状态是否正常的。


2.如权利要求1所述的基于SGSE-ECC的日志异常检测系统,其特征在于,所述的SGSE数据处理模块,包括
SG状态生成子模块,将各设备的日志数量统计生成日志数量状态子序列;将时间窗口内每个设备上产生的每个日志种类数量统计生成用户行为状态子序列;将时间窗口内每个设备某些重要字段中类型出现的次数进行数量统计生成字段状态子序列;
SE顺序抽取子模块,在同一个时间窗口下顺序抽取一个子序列中的一个特征做为标签,与其他两个子序列的所有特征合并成一条样本,使任意一个子序列中的任意特征都有其他两个子序列中的所有特征与之对应,对一个时间窗口进行分析时,随机挑选每个子序列的一个特征组成三个标签代表受测时间窗口。


3.如权利要求1所述的基于SGSE-ECC的日志异常检测系统,其特征在于,所述的ECC模型训练模块包括
所述的ECC模型训练子模块的模型训练步骤如下:
步骤1:将正常、异常时间窗口内的多源异构日志数据的日志数量统计生成日志数量状态子序列,将时间窗口内每个设备上产生的每个日志种类数量统计生成用户行为状态子序列,将时间窗口内每个设备某些重要字段中类型出现的次数进行数量统计生成字段状态子序列;
步骤2:将每个时间窗口下日志数量状态子序列中的n个特征、用户行为状态子序列中的m个特征、字段状态子序列中的j个特征生成(n+m+j)个样本数据集;
步骤3:将每个正常、异常时间窗口内日志数量状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:






v1=1-v2(3)
f(tableα)=v1*M′tableα+v2*M″tableα+bias(4)
tableα代表着日志数量状态子序列中的某个特征做为标签时所对应的样本,
tableα′代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,
tableα″代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,
Mtableα′为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,
Mtableα″为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,
bias为偏执,
v1、v2分别为正常时间窗口、异常时间窗口均方误差的变化系数,训练时v1=v2;
f(tableα)为受训练的时间窗口中日志数量状态子序列中的某个特征做为标签所计算的差异值;
步骤4:将每个正常时间窗口通过式(1)-(4)与其他正常、异常时间窗口计算出差异值并保存为集合U1,将异常时间窗口通过式(1)-(4)与正常、异常时间窗口计算出差异值并保存为P1,得到正常时间窗口下日志数量状态子序列的置信区间σ(α)为
σ(α)=[min(U1),max(U1)]∩[min(P1),max(P1)]
步骤5:将每个正常、异常时间窗口内用户行为状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:






v3=1-v4(7)
f(tableβ)=v3*M′tableβ+v4*M″tableβ+bias(8)
tableβ代表着用户行为状态子序列中的某个特征做为标签时所对应的样本,
tableβ′代表正常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样...

【专利技术属性】
技术研发人员:汪祖民田纪宇秦静季长清
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1