一种基于文本相似度的日志聚类分类技术制造技术

技术编号：24497954 阅读：45 留言：0更新日期：2020-06-13 03:48

本发明专利技术是一种通过分析日志文件结构，提纯日志信息，计算两条日志间的相似度，最终实现日志信息聚类分类的技术。解决了日志文件杂乱无章、只记录不处理的缺点，通过本技术，不仅能将原本混乱的日志信息变得井井有条，压缩日志量，还能为后续处理提供策略支持。本发明专利技术自研了两套处理日志的流程：日志聚类技术、日志分类技术，创造了两个核心算法：基于向量余弦和并集的文本相似度算法、模视窗快速检索算法。用户只需要根据自己的日志结构，修改一下提纯信息的正则表达式，就能实现聚类分类的全自动处理。本发明专利技术可并行处理聚类分类任务，处理能力强，能满足大规模日志分析的需要。本发明专利技术部署简单方便，可嵌入到网络安全等系统内，也可以单独使用。

A log clustering classification technology based on text similarity

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本相似度的日志聚类分类技术
本专利技术涉及计算机、网络安全技术，尤其涉及对日志文件的分析与处理。
技术介绍
计算机日志聚类是一种通过分析日志文件内容相似性，并通过算法对杂乱无章的日志信息进行聚类的技术。聚类技术可以使得原本混乱无序的日志文件变得整齐明了，大大提高了日志的可读性。并且聚类技术能将原来大量的日志信息合并成少量的几个大类，用户通过阅读这几个大类的实例以及这些大类的数量，就能对日志文件有一个宏观的了解。计算机日志分类是一种利用本地样本库，使用算法对单条日志进行分析并归类的技术。非专业人员往往对日志信息无法理解，且除非人工干预，单条日志信息也无法指导计算机进行后续处理。分类技术不仅能对日志信息进行归类，并且能通过返回样本库中类别标签的方式，给用户带来可读性十分强大的标签信息，指导用户或计算机进行后续操作。
技术实现思路
本专利技术的目的是通过解析日志信息，给用户带来更具有可读性也更有实用价值的信息。并且通过样本库附带的标签信息，指导计算机进行后续操作，实现无人值守的智能运维。>本专利技术主要是通本文档来自技高网...

【技术保护点】
1.一种基于文本相似度的日志聚类技术，其特征有：一套关于计算机日志聚类的解决方案，包括在计算机日志文件中提取关键文本信息的方法、动态词汇表的构建与更新策略、文本与数字间的转换方法、基于向量余弦和并集的文本相似度算法、构建样本库与数字样本列表的方法；/n计算机日志文件中提取关键文本信息的方法，主要包括通过对计算机日志文本进行结构和内容分析，得出一套合适的文本切片和正则表达式提取关键文本的方法，从而起到提纯日志信息的目的；/n动态词汇表的构建与更新策略，主要包括动态词汇表的构建策略：动态词汇表可以认为是多个二元组构成的列表，而每个二元组又由“词-词频”对组成；动态词汇表的更新策略：动态词汇表的更新...

【技术特征摘要】
1.一种基于文本相似度的日志聚类技术，其特征有：一套关于计算机日志聚类的解决方案，包括在计算机日志文件中提取关键文本信息的方法、动态词汇表的构建与更新策略、文本与数字间的转换方法、基于向量余弦和并集的文本相似度算法、构建样本库与数字样本列表的方法；
计算机日志文件中提取关键文本信息的方法，主要包括通过对计算机日志文本进行结构和内容分析，得出一套合适的文本切片和正则表达式提取关键文本的方法，从而起到提纯日志信息的目的；
动态词汇表的构建与更新策略，主要包括动态词汇表的构建策略：动态词汇表可以认为是多个二元组构成的列表，而每个二元组又由“词-词频”对组成；动态词汇表的更新策略：动态词汇表的更新主要由词频来决定，词频决定了一个词在词汇表中的位置，词频越高则词的位置越靠前，词频越低则词的位置越靠后，当一个词的词频已经是最低的，这时有一个词频比它高的新词进入词汇表，则这个低频词会被踢出词汇表；
文本与数字间的转换方法，主要包括怎么使用动态词汇表构建文本与数字间的映射，从而实现把文本转换为数字的目的；
构建样本库与数字样本列表的方法，主要包括样本库的构建与...

【专利技术属性】
技术研发人员：韩韶华，钱凯，
申请(专利权)人：无锡畅云网络有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人