一种基于LCS的Chameleon实时日志聚类方法技术

技术编号：24853626 阅读：39 留言：0更新日期：2020-07-10 19:07

本发明专利技术提供一种基于LCS的Chameleon实时日志聚类方法，方法包括：第一步：分词，将原始日志处理成tokens序列，包括敏感词库提出、正则化替换、分词器分词、数值处理和过滤；第二步：日志分组；第三步：匹配模板：第四步：模板优化。本发明专利技术提供的Chameleon日志聚类算法，能够有效的帮助运维人员进行诊断以及定位问题，提高效率和解决问题的能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LCS的Chameleon实时日志聚类方法
本专利技术属于计算机领域，具体涉及一种基于LCS的Chameleon实时日志聚类方法。
技术介绍
日志分析对于一个企业来说是尤为重要的，作为企业的运维人员如不能实时的了解服务器的安全状况，会给企业造成难以估计的损失。对日志进行分析不仅可以了解到软硬件设备的运行状况，还可以了解到报错日志的源头，判断出错误是由应用引发的还是系统本身引起的等，从而及时的进行补救，更好地提高企业软硬件设备的高可用性。日志分析最直接明显的两个目的，一为网站安全自检查，了解服务器上正在发生的安全事件，二为应急事件中的分析取证。但是，面对与日俱增的日志信息，利用传统的方式对日志进行分析已经不能满足企业的要求，基于AI技术的日志分析算法就显得尤为重要。本专利技术提供一种基于LCS的Chameleon实时日志聚类方法，旨在提取日志的共有模板，检测日志中包含的失败和操作异常信息，防止出现严重的数据丢失和宕机，还可以用来检测和改善系统中的安全漏洞和故障，以及诊断各种类型的操作问题、软硬件设计缺陷等。与现...

【技术保护点】
1.一种基于LCS的Chameleon实时日志聚类方法，其特征在于：所述方法包括如下步骤：/n第一步：分词，将原始日志处理成tokens序列；/nStep1:敏感词库提出/n对原始日志中的敏感词进行提取，并将其类型设置为important，不允许泛化；/nStep2:正则化替换/n利用正则表达式，将原始日志中详细的IP地址、端口号以及时间等利用$IP、$IPPort以及$DateTime等字符串替换，并进行简单封装；/nStep3:分词器分词/n为对原始日志进行精准分词，利用Chameleon分词功能，一键切分中文、英文以及中英文混合等不同类型的内容；/nStep4:数值处理/n将原始日志中的...

【技术特征摘要】
1.一种基于LCS的Chameleon实时日志聚类方法，其特征在于：所述方法包括如下步骤：
第一步：分词，将原始日志处理成tokens序列；
Step1:敏感词库提出
对原始日志中的敏感词进行提取，并将其类型设置为important，不允许泛化；
Step2:正则化替换
利用正则表达式，将原始日志中详细的IP地址、端口号以及时间等利用$IP、$IPPort以及$DateTime等字符串替换，并进行简单封装；
Step3:分词器分词
为对原始日志进行精准分词，利用Chameleon分词功能，一键切分中文、英文以及中英文混合等不同类型的内容；
Step4:数值处理
将原始日志中的数值替换为$NUM；
Step5:过滤
根据配置规则将需要忽略的词进行处理；
第二步：日志分组
对处理后的原始日志进行分组处理，以便能够快速定位问题；根据机器学习分类算法，对原始日志进行分组，这些组包括环境层、硬件层、操作系统层、基础架构层、应用层等；Chameleon根据日志所属分组，分别进行聚类；
第三步：匹配模板
Step1:前缀树匹配
每个分组根据该分组下模板的公共tokens创建一个前缀树，前缀树用来快速搜索合适的模板，减少LCS的计算量；对于通常的日志，直接通过前缀树来匹配到模板，成功率大于90％，前缀树匹配失败后，则进入下一环节，进行倒序表匹配；
Step2:倒序表匹配
利用倒序表匹配减少LCS的计算量，在Chameleon中，每个分组下维护一张倒序表，记录每个token在每个模板中的...

【专利技术属性】
技术研发人员：葛晓波，杨辰，殷传旺，
申请(专利权)人：上海擎创信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人