一种基于LCS的Chameleon实时日志聚类方法技术

技术编号:24853626 阅读:39 留言:0更新日期:2020-07-10 19:07
本发明专利技术提供一种基于LCS的Chameleon实时日志聚类方法,方法包括:第一步:分词,将原始日志处理成tokens序列,包括敏感词库提出、正则化替换、分词器分词、数值处理和过滤;第二步:日志分组;第三步:匹配模板:第四步:模板优化。本发明专利技术提供的Chameleon日志聚类算法,能够有效的帮助运维人员进行诊断以及定位问题,提高效率和解决问题的能力。

【技术实现步骤摘要】
一种基于LCS的Chameleon实时日志聚类方法
本专利技术属于计算机领域,具体涉及一种基于LCS的Chameleon实时日志聚类方法。
技术介绍
日志分析对于一个企业来说是尤为重要的,作为企业的运维人员如不能实时的了解服务器的安全状况,会给企业造成难以估计的损失。对日志进行分析不仅可以了解到软硬件设备的运行状况,还可以了解到报错日志的源头,判断出错误是由应用引发的还是系统本身引起的等,从而及时的进行补救,更好地提高企业软硬件设备的高可用性。日志分析最直接明显的两个目的,一为网站安全自检查,了解服务器上正在发生的安全事件,二为应急事件中的分析取证。但是,面对与日俱增的日志信息,利用传统的方式对日志进行分析已经不能满足企业的要求,基于AI技术的日志分析算法就显得尤为重要。本专利技术提供一种基于LCS的Chameleon实时日志聚类方法,旨在提取日志的共有模板,检测日志中包含的失败和操作异常信息,防止出现严重的数据丢失和宕机,还可以用来检测和改善系统中的安全漏洞和故障,以及诊断各种类型的操作问题、软硬件设计缺陷等。与现有的日志聚类算法相比本文档来自技高网...

【技术保护点】
1.一种基于LCS的Chameleon实时日志聚类方法,其特征在于:所述方法包括如下步骤:/n第一步:分词,将原始日志处理成tokens序列;/nStep1:敏感词库提出/n对原始日志中的敏感词进行提取,并将其类型设置为important,不允许泛化;/nStep2:正则化替换/n利用正则表达式,将原始日志中详细的IP地址、端口号以及时间等利用$IP、$IPPort以及$DateTime等字符串替换,并进行简单封装;/nStep3:分词器分词/n为对原始日志进行精准分词,利用Chameleon分词功能,一键切分中文、英文以及中英文混合等不同类型的内容;/nStep4:数值处理/n将原始日志中的...

【技术特征摘要】
1.一种基于LCS的Chameleon实时日志聚类方法,其特征在于:所述方法包括如下步骤:
第一步:分词,将原始日志处理成tokens序列;
Step1:敏感词库提出
对原始日志中的敏感词进行提取,并将其类型设置为important,不允许泛化;
Step2:正则化替换
利用正则表达式,将原始日志中详细的IP地址、端口号以及时间等利用$IP、$IPPort以及$DateTime等字符串替换,并进行简单封装;
Step3:分词器分词
为对原始日志进行精准分词,利用Chameleon分词功能,一键切分中文、英文以及中英文混合等不同类型的内容;
Step4:数值处理
将原始日志中的数值替换为$NUM;
Step5:过滤
根据配置规则将需要忽略的词进行处理;
第二步:日志分组
对处理后的原始日志进行分组处理,以便能够快速定位问题;根据机器学习分类算法,对原始日志进行分组,这些组包括环境层、硬件层、操作系统层、基础架构层、应用层等;Chameleon根据日志所属分组,分别进行聚类;
第三步:匹配模板
Step1:前缀树匹配
每个分组根据该分组下模板的公共tokens创建一个前缀树,前缀树用来快速搜索合适的模板,减少LCS的计算量;对于通常的日志,直接通过前缀树来匹配到模板,成功率大于90%,前缀树匹配失败后,则进入下一环节,进行倒序表匹配;
Step2:倒序表匹配
利用倒序表匹配减少LCS的计算量,在Chameleon中,每个分组下维护一张倒序表,记录每个token在每个模板中的...

【专利技术属性】
技术研发人员:葛晓波杨辰殷传旺
申请(专利权)人:上海擎创信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1