一种基于文本相似度的日志聚类分类技术制造技术

技术编号:24497954 阅读:38 留言:0更新日期:2020-06-13 03:48
本发明专利技术是一种通过分析日志文件结构,提纯日志信息,计算两条日志间的相似度,最终实现日志信息聚类分类的技术。解决了日志文件杂乱无章、只记录不处理的缺点,通过本技术,不仅能将原本混乱的日志信息变得井井有条,压缩日志量,还能为后续处理提供策略支持。本发明专利技术自研了两套处理日志的流程:日志聚类技术、日志分类技术,创造了两个核心算法:基于向量余弦和并集的文本相似度算法、模视窗快速检索算法。用户只需要根据自己的日志结构,修改一下提纯信息的正则表达式,就能实现聚类分类的全自动处理。本发明专利技术可并行处理聚类分类任务,处理能力强,能满足大规模日志分析的需要。本发明专利技术部署简单方便,可嵌入到网络安全等系统内,也可以单独使用。

A log clustering classification technology based on text similarity

【技术实现步骤摘要】
一种基于文本相似度的日志聚类分类技术
本专利技术涉及计算机、网络安全技术,尤其涉及对日志文件的分析与处理。
技术介绍
计算机日志聚类是一种通过分析日志文件内容相似性,并通过算法对杂乱无章的日志信息进行聚类的技术。聚类技术可以使得原本混乱无序的日志文件变得整齐明了,大大提高了日志的可读性。并且聚类技术能将原来大量的日志信息合并成少量的几个大类,用户通过阅读这几个大类的实例以及这些大类的数量,就能对日志文件有一个宏观的了解。计算机日志分类是一种利用本地样本库,使用算法对单条日志进行分析并归类的技术。非专业人员往往对日志信息无法理解,且除非人工干预,单条日志信息也无法指导计算机进行后续处理。分类技术不仅能对日志信息进行归类,并且能通过返回样本库中类别标签的方式,给用户带来可读性十分强大的标签信息,指导用户或计算机进行后续操作。
技术实现思路
本专利技术的目的是通过解析日志信息,给用户带来更具有可读性也更有实用价值的信息。并且通过样本库附带的标签信息,指导计算机进行后续操作,实现无人值守的智能运维。本专利技术主要是通过以下技术实现的:1)日志信息提纯技术。2)文字信息与数字信息之间的转换技术。3)向量的相似度算法。4)样本库与数字样本列表技术。5)“模视窗”快速检索算法。6)样本标签技术。日志信息提纯技术:日志信息除了包含描述性文本之外,也包含了大量的噪音信息(比如时间戳、ip、参数等),由于这些噪音不是正常的自然语言,且包含的信息量较少,所以应该通过预处理的方式把这些噪音清洗掉。本专利技术采用了文本切片和正则表达式的方式进行信息提纯,只保留描述性的文本信息,保证了信息的可靠性。文字信息与数字信息之间的转换技术:由于文字信息无法使用数学计算,所以需要将文字转换为数字。本专利技术使用的是动态词汇表的方式将文字转成数字,动态词汇表是根据词频动态更新的,词汇表有一定的容量,这样可以把低频词剔除在词汇表之外。向量的相似度算法:判断两段文本信息是否是一类的,最有效的方法就是计算这两段文本的相似度。本专利技术独创了基于向量余弦和并集的算法来计算相似度,此算法综合了余弦相似度和并集相似度这两个算法的优点,解决了序列错位和重复信息造成的相似度计算失准,大大提高了文本相似度计算的正确性。样本库与数字样本列表技术:样本库的作用是为日志分类提供分类依据,样本库中的每一个样本都可以视为一个类别。数字样本列表其实就是样本库的一个数字映射,目的是实现快速检索。样本库和数字样本列表是一体的,当其中一个发生改变时,另一个必定也随之改变。“模视窗”快速检索算法:为了避免样本库的体积越来越大造成的检索速度下降,本专利技术独创了名为“模视窗”的检索算法,根据“相似度越高,则模长越接近,模长相等,但不一定相似”的原理,通过计算样本的模长来对样本库进行排序,将每次的检索范围限定在一个固定的窗口之内,从而实现了无论样本库的体积有多大,但检索速度基本保持不变的效果。样本标签技术:样本库仅仅是实现了日志的分类任务,但分类后的日志并不能给计算机后续操作带来指导意义,且类别信息可读性也比较差。所以最好的方法是为样本库中的样本加上标签信息,这样在识别出一个日志的分类后,只需要返回此分类的标签信息即可,根据标签信息就能给用户带来更好的阅读体验,甚至能利用规则化的标签信息指导计算机进行后续操作,实现从分析到处理的业务闭环。本专利技术按照处理流程来说,可以分为两类,一类为日志聚类,流程为:获取全部日志信息——提纯信息——更新词汇表——文本数字化——更新样本库和数字样本列表——日志聚类。另一类为日志分类,流程为:获取单条日志信息——提纯信息——文本数字化——数字样本列表快速检索分类——从样本库提取标签信息——展示标签信息或使用标签指导后续操作。本专利技术涉及两种原创算法,分别是“基于向量余弦和并集的文本相似度算法”和“模视窗快速检索算法”。基于向量余弦和并集的文本相似度算法:,其中a,b为长度相同的向量,,,的值域为[0,1],代表相似度从0%—100%。模视窗快速检索算法:设已有一组向量A,A由n个向量组成[a1,a2,a3…an],现有一个目标向量b,需要求向量b与A中哪个向量最相似。最简单的做法是将b与A中的所有向量用相似度算法算一遍,取相似度最高的向量即可。但如果n这个值非常大的话,那么计算量也会非常大,很可能会影响到系统性能。为了解决这个问题,所以设计出了这个“模视窗”算法。首先,计算A中所有向量的模,设向量a=[x1,x2…xn],则模长公式为。然后,将A中的向量根据模长从小到大进行排序,并同时维护一个只包含所有向量模长大小的列表m(依然是从小到大排序的)。然后,计算目标向量b的模长,将b的模长插入m中,并将m重新排序,得到b在m中的位置L(m)。最后,根据位置L(m)得到A中具有相同位置的L(A),设参数“模视窗半径”为R,则最终的“模视窗”为[L(A)-R,L(A)+R],如果这个视窗上下限抵达A的边缘,则需要做特殊处理。根据“相似度越高,则模长越接近,模长相等,但不一定相似”的原理,如果有一个向量与目标向量b很相似,则它的模长一定与b的模长接近,也就是一定在“模视窗”的范围内,这样无论A中的向量有多少,通过“模视窗”算法,都能快速地找到最相似的向量。附图说明图1为系统流程图。具体实施方式日志聚类阶段:步骤1)收集需要聚类的日志文件,包含但不限于系统日志、服务器日志、交换机日志、路由器日志、网络探针日志等,日志文件格式为文本格式(.txt,.log)。步骤2)将需要处理的日志文件放入系统指导的文件夹内。步骤3)根据需求修改配置文件(config.ini)内的参数设置。步骤4)运行日志聚类程序。步骤5)系统在输出目录中自动生成聚类后的日志文件,并同时更新词汇表、样本库和数字样本列表。步骤6)检查聚类结果,完成日志聚类。日志分类阶段:步骤1)需要准备一个能不断输送日志信息的接口,比如log-parser。步骤2)将日志输出接口接入日志分类程序中步骤3)启动日志分类程序,启动多个进程并行处理日志信息。步骤4)根据相似度计算结果,返回分类信息或标签信息。步骤5)前端展示分类信息或标签信息(因为日志信息一般较多,可以只展示重要的信息)步骤6)如果有根据标签信息进行后续处理的下游程序,则启动下游程序。本文档来自技高网...

【技术保护点】
1.一种基于文本相似度的日志聚类技术,其特征有:一套关于计算机日志聚类的解决方案,包括在计算机日志文件中提取关键文本信息的方法、动态词汇表的构建与更新策略、文本与数字间的转换方法、基于向量余弦和并集的文本相似度算法、构建样本库与数字样本列表的方法;/n计算机日志文件中提取关键文本信息的方法,主要包括通过对计算机日志文本进行结构和内容分析,得出一套合适的文本切片和正则表达式提取关键文本的方法,从而起到提纯日志信息的目的;/n动态词汇表的构建与更新策略,主要包括动态词汇表的构建策略:动态词汇表可以认为是多个二元组构成的列表,而每个二元组又由“词-词频”对组成;动态词汇表的更新策略:动态词汇表的更新主要由词频来决定,词频决定了一个词在词汇表中的位置,词频越高则词的位置越靠前,词频越低则词的位置越靠后,当一个词的词频已经是最低的,这时有一个词频比它高的新词进入词汇表,则这个低频词会被踢出词汇表;/n文本与数字间的转换方法,主要包括怎么使用动态词汇表构建文本与数字间的映射,从而实现把文本转换为数字的目的;/n构建样本库与数字样本列表的方法,主要包括样本库的构建与更新策略、数字样本列表的数据结构。/n...

【技术特征摘要】
1.一种基于文本相似度的日志聚类技术,其特征有:一套关于计算机日志聚类的解决方案,包括在计算机日志文件中提取关键文本信息的方法、动态词汇表的构建与更新策略、文本与数字间的转换方法、基于向量余弦和并集的文本相似度算法、构建样本库与数字样本列表的方法;
计算机日志文件中提取关键文本信息的方法,主要包括通过对计算机日志文本进行结构和内容分析,得出一套合适的文本切片和正则表达式提取关键文本的方法,从而起到提纯日志信息的目的;
动态词汇表的构建与更新策略,主要包括动态词汇表的构建策略:动态词汇表可以认为是多个二元组构成的列表,而每个二元组又由“词-词频”对组成;动态词汇表的更新策略:动态词汇表的更新主要由词频来决定,词频决定了一个词在词汇表中的位置,词频越高则词的位置越靠前,词频越低则词的位置越靠后,当一个词的词频已经是最低的,这时有一个词频比它高的新词进入词汇表,则这个低频词会被踢出词汇表;
文本与数字间的转换方法,主要包括怎么使用动态词汇表构建文本与数字间的映射,从而实现把文本转换为数字的目的;
构建样本库与数字样本列表的方法,主要包括样本库的构建与...

【专利技术属性】
技术研发人员:韩韶华钱凯
申请(专利权)人:无锡畅云网络有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1