一种基于流式日志数据聚类降噪方法技术

技术编号:42236200 阅读:21 留言:0更新日期:2024-08-02 13:50
本发明专利技术公开了一种基于流式日志数据聚类降噪方法,首先通过基于opentelemetry调用链将业务系统的流式日志数据进行加工处理,将带有调用依赖的业务场景日志关联聚合在一起;然后采用基于trace调用链和Jaccard文本相似度构建特征向量,训练svm分类器来对流式日志进行聚类降噪;通过上述方法可以将单一的日志数据以业务形式合并在一起,并相似的流式日志聚合起来,以实现日志降噪的目的。该方法解决了现有技术中存在的只能将同一事务操作的日志打印进行组装,并不能将同一业务场景的日志进行归类;或者只能将某一类日志聚合,但不能将同一业务场景的业务日志聚合,最终会形成数据孤岛的技术问题,使用机器学习的方法对流式的业务日志场景进行分类聚合,更加快速、准确。

【技术实现步骤摘要】

本专利技术涉及互联网微服务,尤其涉及一种基于流式日志数据聚类降噪方法


技术介绍

1、随着互联网技术的发展,微服务架构技术普遍应用于各个互联网系统,通过松散耦合的方式将各个不同的业务系统进行独立部署。微服务架构技术给业务系统带来很大便利的同时,也相应地带来了很大的挑战。

2、微服务架构中,分布式系统的日志记录会散落在各个子系统中,将其收集到一起后会产生巨大的日志量,部分不同的子系统所产生的日志会有业务关联,部分日志间则毫无关联;此外,对分布式系统的业务场景进行归类统计也是日常业务运维需要监控的指标之一,因此,对分布式系统的大量日志记录进行聚类降噪是现有技术亟需解决的技术问题。

3、目前,简单的日志聚类方法有很多,比较常用的方法有:

4、1、简单的事务日志聚合:在日志中打印相同的request_id,然后对相同的request_id进行归类,这种方法是最简单的日志聚合;如现有专利名称为:处理事务日志的方法及装置(专利申请号为:cn202211082758.5)的技术方案,该方案只能将同一事务操作的日志打印进行组装,并不能将本文档来自技高网...

【技术保护点】

1.一种基于流式日志数据聚类降噪方法,其特征在于:

2.如权利要求1所述的基于流式日志数据聚类降噪方法,其特征在于:在步骤S1中,采用基于opentelemetry调用链对流式日志加工的具体步骤包括:

3.如权利要求2所述的基于流式日志数据聚类降噪方法,其特征在于:在步骤S11中,格式化业务系统的打印日志,使用扩展的opentelemetry日志包将日志按key:value的格式打印出来;上述打印的日志包括content上下文的调用链信息的traceId和spanId。

4.如权利要求3所述的基于流式日志数据聚类降噪方法,其特征在于:在步骤S12中,基...

【技术特征摘要】

1.一种基于流式日志数据聚类降噪方法,其特征在于:

2.如权利要求1所述的基于流式日志数据聚类降噪方法,其特征在于:在步骤s1中,采用基于opentelemetry调用链对流式日志加工的具体步骤包括:

3.如权利要求2所述的基于流式日志数据聚类降噪方法,其特征在于:在步骤s11中,格式化业务系统的打印日志,使用扩展的opentelemetry日志包将日志按key:value的格式打印出来;上述打印的日志包括content上下文的调用链信息的traceid和spanid。

4.如权利要求3所述的基于流式日志数据聚类降噪方法,其特征在于:在步骤s12中,基于flink滚动窗口统计n分钟内的日志和trace数据,将日志和trace数据的key、value解析出来,并使用traceid和spanid将每条日志和trace数据关联起来,相同traceid的若干条日志和trace数据是同一个业务场景的数据,视为一个业务事件,然后将每个业务事件入库,并推送到下一步处理。

5.如权利要求4所述的基于流式日志数据聚类降噪方法,其特征在于:在上述步骤中,n分钟的时间节点视业务处理...

【专利技术属性】
技术研发人员:张志敏李彬彬王然吴楚鹏
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1