【技术实现步骤摘要】
一种日志聚类处理方法及系统
[0001]本专利技术涉及数据处理
,尤其涉及一种日志聚类处理方法及系统。
技术介绍
[0002]云计算的飞速发展,催生了大量的云平台的应用和服务,大量网络用户的信息都存储在各种各样的云平台上,随着用户的增加,各种云平台产生的日志数据也大规模的喷发,如何对这些海量的用户日志或者平台服务系统的日志进行分析和挖掘,是云平台所要面对和解决的技术问题之一。
[0003]聚类算法是目前解决这类海量日志的有效解决办法,对于日志行为的分析,目前主要的聚类算法主要有基于业务逻辑和先验知识,设计一些规则对日志进行聚类,还有一种是基于无监督学习的算法,对海量数据标签进行算法聚类。
[0004]基于不同的算法,或者不同的模型,或者设定不同的目标函数等等的差异,都会产生不同的聚类结果,每种聚类算法都有其特定的适用场景和优劣,没有一种万能的聚类算法是适合所有的场景和应用的。因此,如何评价哪种聚类结果是最佳或者最合适的的聚类,是目前业界需要解决的更深层技术问题。
技术实现思路
[0005 ...
【技术保护点】
【技术特征摘要】
1.一种日志聚类处理方法,其特征是,包括以下步骤:S1:获取并切分日志数据;S2:依次对每二条日志的相关性进行分析;S3:对相关性强的日志数据进行聚类处理,获得各层聚类的结果;S4:对各层聚类结果进行评价,获得聚类的最终评价结果。2.如权利要求1所述的日志聚类处理方法,其特征是,步骤S1获取日志数据包括:获取日志数据;对日志数据进行清洗;通过正则表达式将清洗后的日志数据进行结构化处理。3.如权利要求1所述的日志聚类处理方法,其特征是,步骤S2中相关性分析,计算相关系数的公式为:4.如权利要求1所述的日志聚类处理方法,其特征是,步骤S3对相关性强的日志数据进行聚类处理,获得各层聚类的结果,其步骤包括:获得底层聚类;在底层聚类基础上,进行若干次聚类,直至聚合为一类,获得各层聚类结果;其中,底层聚类的步骤包括:在底层聚类前先设定相关系数的预设阈值;根据日志顺序,依次计算其相关系数,将最先相关系数大于预设阈值的二条日志归为一类,并将其第1条日志作为代表日志;依次计算后续的日志与代表日志的相关系数,如果相关系数大于预设阈值,则继续归为一类,若小于预设阈值,则新建一类,直至全部计算完毕,获得底层聚类。5.如权利要求1所述的日志聚类处理方法,其特征是,步骤S4中对聚类结果进行评价,其步骤包括:获取聚类结果中每一层聚类中的类别数量N
C
、每一类中的日志总数Q
i
、类型相同且值相等的日志数量Value
i
、类型相同且值不相等的日志数...
【专利技术属性】
技术研发人员:周暐,钱飞扬,巩珊珊,
申请(专利权)人:上海七牛信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。