当前位置: 首页 > 专利查询>大连大学专利>正文

多源异构日志分析方法技术

技术编号:26478464 阅读:55 留言:0更新日期:2020-11-25 19:22
多源异构日志分析方法,属于日志数据处理领域,为了解决对于日志分析的问题,步骤1:根据信息系统所要求的响应时间确定时间窗口的大小;步骤2:使用SGSE算法对每个时间窗口内的日志数据处理成可供ECC日志分析算法调用的样本;步骤3:训练并使用ECC日志分析模型分析时间窗口下是否正常;步骤4:呈现日志分析结果,效果能够对日志进行异常分析。

【技术实现步骤摘要】
多源异构日志分析方法
本专利技术属于日志数据处理领域,涉及一种多源异构日志分析方法和系统。
技术介绍
随着互联网技术的发展,信息系统内各设备产生的日志数量也日渐增多,对由不同设备产生、数据特征不同的日志进行分析是运维工作的重要组成部分。通过自动化的手段对多源异构的日志数据进行分析,可以及时获知信息系统的运行状态为异常还是正常,确保信息系统安全、稳定的运行,进而降低企业的运维成本。当前的多源异构日志分析的技术方法中,使用了单一分析再聚合、关联分析等方法。在单一分析聚合的方法中,先分析信息系统内的单一设备中产生的日志,分析出每个设备的运行状态,再按照提前设定好的规则根据每个设备的状态判断整个信息系统是否存在异常情况。然而,此方法分析时没有将不同设备内的日志组合分析,而是单独判断了不同设备状态后再分析,不能挖掘出不同设备日志之间的关系。在关联分析的方法中,先根据日志中的各个字段内容生成特征事件,将一个时间窗口下不同设备产生的事件聚类后进行相似性比较,剔除同类事件。然后将不同设备的同类事件合并,最终生成各类事件的统计报告。然而,在此方法中,以生成各类事件的统计报告为目的,未能深度挖掘各类事件之间的关系直接呈现给用户,且只使用聚类算法无法精准对每个事件进行归类。当前的多源异构日志分析的技术方法中,使用了单一分析再聚合[1]、关联分析[2]等方法。在单一分析聚合的方法中,先分析信息系统内的单一设备中产生的日志,分析出每个设备的运行状态,再按照提前设定好的规则根据每个设备的状态判断整个信息系统是否存在异常情况。在关联分析的方法中,先根据日志中的各个字段内容生成特征事件,将一个时间窗口下不同设备产生的事件进行相似性比较,剔除同类事件。然后将不同设备的同类事件合并,最终生成各类事件的统计报告。基在单一分析聚合的方法中,没有将不同设备内的日志组合分析,而是单独判断了不同设备状态后再分析,不能挖掘出不同设备日志之间的关系。在关联分析的方法中,以生成各类事件的统计报告为目的,不能够深度挖掘各类事件之间的关系直接呈现给用户。
技术实现思路
为了解决对于日志分析的问题,本专利技术提出如下技术方案:一种多源异构日志分析方法,包括如下步骤:步骤1:根据信息系统所要求的响应时间确定时间窗口的大小;步骤2:使用SGSE算法对每个时间窗口内的日志数据处理成可供ECC日志分析算法调用的样本;步骤3:训练并使用ECC日志分析模型分析时间窗口下是否正常;步骤4:呈现日志分析结果。进一步的,模型训练的步骤如下:步骤1:将正常、异常时间窗口内的多源异构日志数据的日志数量统计生成日志数量状态子序列,将时间窗口内每个设备上产生的每个日志种类数量统计生成用户行为状态子序列,将时间窗口内每个设备某些重要字段中类型出现的次数进行数量统计生成字段状态子序列;步骤2:将每个时间窗口下日志数量状态子序列中的n个特征、用户行为状态子序列中的m个特征、字段状态子序列中的j个特征生成(n+m+j)个样本数据集;步骤3:将每个正常、异常时间窗口内日志数量状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:v1=1-v2(3)f(tableα)=v1*M′tableα+v2*M″tableα+bias(4)tableα代表着日志数量状态子序列中的某个特征做为标签时所对应的样本,tableα′代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,tableα″代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,Mtableα′为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,Mtableα″为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,bias为偏执,v1、v2分别为正常时间窗口、异常时间窗口均方误差的变化系数,训练时v1=v2;f(tableα)为受训练的时间窗口中日志数量状态子序列中的某个特征做为标签所计算的差异值;步骤4:将每个正常时间窗口通过式(1)-(4)与其他正常、异常时间窗口计算出差异值并保存为集合U1,将异常时间窗口通过式(1)-(4)与正常、异常时间窗口计算出差异值并保存为P1,得到正常时间窗口下日志数量状态子序列的置信区间σ(α)为σ(α)=[min(U1),max(U1)]∩[min(P1),max(P1)]步骤5:将每个正常、异常时间窗口内用户行为状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:v3=1-v4(7)f(tableβ)=v3*M′tableβ+v4*M″tableβ+bias(8)tableβ代表着用户行为状态子序列中的某个特征做为标签时所对应的样本,tableβ′代表正常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本,tableβ″代表异常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本,Mtableβ′为用户行为状态子序列中的某个特征做为标签时所对应的样本与代表正常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,Mtableβ″为用户行为状态子序列中的某个特征做为标签时所对应的样本与代表异常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,bias为偏执,v3、v4分别为正常时间窗口、异常时间窗口均方误差的变化系数,训练时v3=v4,f(tableβ)为受训练的时间窗口中用户行为状态子序列中的某个特征做为标签所计算的差异值;步骤6:将每个正常时间窗口通过式(5)-(8)与正常、异常时间窗口计算出差异值并保存为集合U2,将异常时间窗口通过式(5)-(8)与正常、异常时间窗口计算出差异值并保存为P2,得到正常时间窗口下字段状态子序列的置信区间σ(β)为σ(β)=[min(U2),max(U2)]∩[min(P2),max(P2)]步骤7:将每个正常、异常时间窗口内字段状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本集两两计算出差异值,计算表达式为:v5=1-v6(11)f(tableγ)=v5*M′tableγ+v6*M″tableγ+bias(12)tableγ代表着字段状态子序列中的某个特征做为标签时所对应的样本,tableγ′代表正常时间窗口下字段状态子序列中的本文档来自技高网
...

【技术保护点】
1.一种多源异构日志分析方法,其特征在于,包括如下步骤:/n步骤1:根据信息系统所要求的响应时间确定时间窗口的大小;/n步骤2:使用SGSE算法对每个时间窗口内的日志数据处理成可供ECC日志分析算法调用的样本;/n步骤3:训练并使用ECC日志分析模型分析时间窗口下是否正常;/n步骤4:呈现日志分析结果。/n

【技术特征摘要】
1.一种多源异构日志分析方法,其特征在于,包括如下步骤:
步骤1:根据信息系统所要求的响应时间确定时间窗口的大小;
步骤2:使用SGSE算法对每个时间窗口内的日志数据处理成可供ECC日志分析算法调用的样本;
步骤3:训练并使用ECC日志分析模型分析时间窗口下是否正常;
步骤4:呈现日志分析结果。


2.如权利要求1所述的多源异构日志分析方法,其特征在于,模型训练的步骤如下:
步骤1:将正常、异常时间窗口内的多源异构日志数据的日志数量统计生成日志数量状态子序列,将时间窗口内每个设备上产生的每个日志种类数量统计生成用户行为状态子序列,将时间窗口内每个设备某些重要字段中类型出现的次数进行数量统计生成字段状态子序列;
步骤2:将每个时间窗口下日志数量状态子序列中的n个特征、用户行为状态子序列中的m个特征、字段状态子序列中的j个特征生成(n+m+j)个样本数据集;
步骤3:将每个正常、异常时间窗口内日志数量状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:






v1=1-v2(3)
f(tableα)=v1*M′tableα+v2*M″tableα+bias(4)
tableα代表着日志数量状态子序列中的某个特征做为标签时所对应的样本,
tableα′代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,
tableα″代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本,
Mtableα′为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表正常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,
Mtableα″为日志数量状态子序列中的某个特征做为标签时所对应的样本与代表异常时间窗口下日志数量状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,
bias为偏执,
v1、v2分别为正常时间窗口、异常时间窗口均方误差的变化系数,训练时v1=v2;
f(tableα)为受训练的时间窗口中日志数量状态子序列中的某个特征做为标签所计算的差异值;
步骤4:将每个正常时间窗口通过式(1)-(4)与其他正常、异常时间窗口计算出差异值并保存为集合U1,将异常时间窗口通过式(1)-(4)与正常、异常时间窗口计算出差异值并保存为P1,得到正常时间窗口下日志数量状态子序列的置信区间σ(α)为
σ(α)=[min(U1),max(U1)]∩[min(P1),max(P1)]
步骤5:将每个正常、异常时间窗口内用户行为状态子序列中的某个特征做为标签的样本数据集按照ECC表达式分别与其他正常、异常时间窗口内的样本数据集两两计算出差异值,计算表达式为:






v3=1-v4(7)
f(tableβ)=v3*M′tableβ+v4*M″tableβ+bias(8)
tableβ代表着用户行为状态子序列中的某个特征做为标签时所对应的样本,
tableβ′代表正常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本,
tableβ″代表异常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本,
Mtableβ′为用户行为状态子序列中的某个特征做为标签时所对应的样本与代表正常时间窗口下用户行为状态子序列中的某个特征做为标签时所对应的样本的之间的均方误差,
Mtableβ″为用户行为状态子序列中的某个特征做为标签时所对应的样本与代表异常时间窗口下用户行为状态子序列中的某...

【专利技术属性】
技术研发人员:汪祖民田纪宇秦静季长清
申请(专利权)人:大连大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1