【技术实现步骤摘要】
日志分类方法、系统、计算机设备和可读存储介质
[0001]本申请涉及服务链路开发
,特别是涉及一种日志分类方法、系统、计算机设备和可读存储介质。
技术介绍
[0002]服务器、系统及服务程序等,在运作时都会产生日志事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。在程序正确运行时输出合适的日志消息,只是合理使用日志的第一步,日志记录的真正作用在于当有问题发生时,能够帮助开发人员很快的定位问题所在,然而设备及程序产生的日志多种多样,如果应用系统较大,产生的日志量也是巨大的,运维人员在大量的日志数据中进行故障定位或者发现潜在的威胁需要付出巨大的努力,而且整体应用系统的规模越大需要耗费的精力也越大,从而造成企业投入较大的运维成本。
[0003]现有的日志聚合技术,大多需要根据日志类型以及日志中的有效字段(比如IP地址等)进行正则规则匹配,从而对解析日志进行规则匹配,然而这种正则的判定方式往往是不全面的,需要工作人员根据日志格式不断调整正则规则,不仅聚合效率低,而且还易出错、数据不够全面。
...
【技术保护点】
【技术特征摘要】
1.一种日志分类方法,其特征在于,包括:建立基于DBSCAN算法的原始日志分类模型;利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型,所述训练集数据包括多个带有类别标签的历史日志;利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别。2.根据权利要求1所述的日志分类方法,其特征在于,所述利用训练集数据对所述原始日志分类模型进行训练,得到目标日志模型的步骤具体包括:将所述训练集数据中的各个历史日志分别转化为布尔向量;计算任意两个所述历史日志的布尔向量的杰卡德系数;根据所述杰卡德系数计算任意两个所述历史日志的杰拉德距离;根据所述历史日志的杰卡德距离和对应的类别标签对所述原始日志分类模型进行训练,得到目标日志模型。3.根据权利要求2所述的日志分类方法,其特征在于,所述杰卡德系数的计算公式如下:所述杰卡德距离的计算公式如下:其中,A和B分别表示一条历史日志的布尔向量,J(A,B)表示布尔向量A和布尔向量B的杰卡德系数,d
j
(A,B)表示布尔向量A对应的历史日志和布尔向量B对应的历史日志的杰卡德距离。4.根据权利要求1所述的日志分类方法,其特征在于,所述利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤之前,所述方法还包括:利用测试集数据对所述目标日志模型进行测试,并根据测试结果判断所述目标日志模型是否合格;若是,则执行利用所述目标日志模型对待测试日志数据进行分类,以得到所述待测试日志数据的类别的步骤。5.根据权利要求1所述的日志分类方法,其特征在于,所述利...
【专利技术属性】
技术研发人员:王雪巍,范渊,刘博,
申请(专利权)人:杭州安恒信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。