一种基于文本相似度的日志聚类分类技术制造技术

技术编号:24497954 阅读:45 留言:0更新日期:2020-06-13 03:48
本发明专利技术是一种通过分析日志文件结构,提纯日志信息,计算两条日志间的相似度,最终实现日志信息聚类分类的技术。解决了日志文件杂乱无章、只记录不处理的缺点,通过本技术,不仅能将原本混乱的日志信息变得井井有条,压缩日志量,还能为后续处理提供策略支持。本发明专利技术自研了两套处理日志的流程:日志聚类技术、日志分类技术,创造了两个核心算法:基于向量余弦和并集的文本相似度算法、模视窗快速检索算法。用户只需要根据自己的日志结构,修改一下提纯信息的正则表达式,就能实现聚类分类的全自动处理。本发明专利技术可并行处理聚类分类任务,处理能力强,能满足大规模日志分析的需要。本发明专利技术部署简单方便,可嵌入到网络安全等系统内,也可以单独使用。

A log clustering classification technology based on text similarity

【技术实现步骤摘要】
一种基于文本相似度的日志聚类分类技术
本专利技术涉及计算机、网络安全技术,尤其涉及对日志文件的分析与处理。
技术介绍
计算机日志聚类是一种通过分析日志文件内容相似性,并通过算法对杂乱无章的日志信息进行聚类的技术。聚类技术可以使得原本混乱无序的日志文件变得整齐明了,大大提高了日志的可读性。并且聚类技术能将原来大量的日志信息合并成少量的几个大类,用户通过阅读这几个大类的实例以及这些大类的数量,就能对日志文件有一个宏观的了解。计算机日志分类是一种利用本地样本库,使用算法对单条日志进行分析并归类的技术。非专业人员往往对日志信息无法理解,且除非人工干预,单条日志信息也无法指导计算机进行后续处理。分类技术不仅能对日志信息进行归类,并且能通过返回样本库中类别标签的方式,给用户带来可读性十分强大的标签信息,指导用户或计算机进行后续操作。
技术实现思路
本专利技术的目的是通过解析日志信息,给用户带来更具有可读性也更有实用价值的信息。并且通过样本库附带的标签信息,指导计算机进行后续操作,实现无人值守的智能运维。>本专利技术主要是通本文档来自技高网...

【技术保护点】
1.一种基于文本相似度的日志聚类技术,其特征有:一套关于计算机日志聚类的解决方案,包括在计算机日志文件中提取关键文本信息的方法、动态词汇表的构建与更新策略、文本与数字间的转换方法、基于向量余弦和并集的文本相似度算法、构建样本库与数字样本列表的方法;/n计算机日志文件中提取关键文本信息的方法,主要包括通过对计算机日志文本进行结构和内容分析,得出一套合适的文本切片和正则表达式提取关键文本的方法,从而起到提纯日志信息的目的;/n动态词汇表的构建与更新策略,主要包括动态词汇表的构建策略:动态词汇表可以认为是多个二元组构成的列表,而每个二元组又由“词-词频”对组成;动态词汇表的更新策略:动态词汇表的更新...

【技术特征摘要】
1.一种基于文本相似度的日志聚类技术,其特征有:一套关于计算机日志聚类的解决方案,包括在计算机日志文件中提取关键文本信息的方法、动态词汇表的构建与更新策略、文本与数字间的转换方法、基于向量余弦和并集的文本相似度算法、构建样本库与数字样本列表的方法;
计算机日志文件中提取关键文本信息的方法,主要包括通过对计算机日志文本进行结构和内容分析,得出一套合适的文本切片和正则表达式提取关键文本的方法,从而起到提纯日志信息的目的;
动态词汇表的构建与更新策略,主要包括动态词汇表的构建策略:动态词汇表可以认为是多个二元组构成的列表,而每个二元组又由“词-词频”对组成;动态词汇表的更新策略:动态词汇表的更新主要由词频来决定,词频决定了一个词在词汇表中的位置,词频越高则词的位置越靠前,词频越低则词的位置越靠后,当一个词的词频已经是最低的,这时有一个词频比它高的新词进入词汇表,则这个低频词会被踢出词汇表;
文本与数字间的转换方法,主要包括怎么使用动态词汇表构建文本与数字间的映射,从而实现把文本转换为数字的目的;
构建样本库与数字样本列表的方法,主要包括样本库的构建与...

【专利技术属性】
技术研发人员:韩韶华钱凯
申请(专利权)人:无锡畅云网络有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1