一种应用日志降噪方法及装置制造方法及图纸

技术编号:24757364 阅读:73 留言:0更新日期:2020-07-04 09:26
本发明专利技术实施例提供一种应用日志降噪方法及装置。所述方法包括采集应用日志;根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量;根据所述特征向量和预先根据主题模型得到的噪声识别规则,若判定所述应用日志为噪声,则将所述应用日志去除,本发明专利技术实施例通过预先确认的分词规则对得到的应用日志进行分词,再采用预先得到的噪声识别规则对分词后得到的特征向量进行判定,从而可以简单、方便、准确得对各种应用日志进行噪声识别。

A noise reduction method and device for application log

【技术实现步骤摘要】
一种应用日志降噪方法及装置
本专利技术实施例涉及计算机软件
,尤其涉及一种应用日志降噪方法及装置。
技术介绍
应用日志目前被视作系统故障诊断定位的重要运维窗口之一,通过对日志事件行为特征的提取聚合等可以实现对大多数故障的实时定位。除此之外,应用日志也被广泛应用于各类经营分析,如对用户访问日志等的深度挖掘及关联分析可以建立不同人群的行为肖像,从而开展多层次的营销活动。然而,随着系统规模的不断增长,系统复杂度不断提高,基于日志的故障诊断、经营分析等受到各类环境因素、代码质量等影响,如注入大量与故障、经分需求无关的日志,系统开发时对日志级别设定不准确导致的杂乱日志等,这些类型的日志在后续日志分析的时候会造成极大的干扰,因此被视作“噪声数据”。为了构建有效的故障特征模型及聚合准确的运营指标数据,必须要在分析前将这些噪声日志滤除。目前关于应用日志降噪的相关技术方案如下:方案一:基于人为经验标注的日志噪声过滤方法,基于经验标注的方法主要通过运维等系统负责人员定期整理分析应用吐出的日志数据,并根据自己长期的工作经验对各类日志进行分类筛选,并对判本文档来自技高网...

【技术保护点】
1.一种应用日志降噪方法,其特征在于,包括:/n采集应用日志;/n根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量;/n根据所述特征向量和预先根据主题模型得到的噪声识别规则,若判定所述应用日志为噪声,则将所述应用日志去除。/n

【技术特征摘要】
1.一种应用日志降噪方法,其特征在于,包括:
采集应用日志;
根据预先得到的分词规则对所述应用日志进行分词处理得到特征向量;
根据所述特征向量和预先根据主题模型得到的噪声识别规则,若判定所述应用日志为噪声,则将所述应用日志去除。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据语料库中训练集保存的历史应用日志,采用统计分词模型得到所述分词规则;
根据所述分词规则对所述历史应用日志中的每个历史应用日志进行分词处理以得到对应的特征向量;
根据所述历史应用日志的特征向量,通过训练得到主题模型;其中,所述主题模型至少包括噪声主题;
所述根据主题模型得到所述噪声识别规则。


3.根据权利要求2所述的方法,其特征在于,所述语料库还包括测试集,所述测试集至少包括一条测试应用日志;相应地,所述方法还包括:
根据所述分词规则对所述测试集中的每个测试应用日志进行分词处理以得到对应的特征向量;
根据所述特征向量和所述噪声识别规则进行噪声识别,并与预设的标准进行比对,若存在偏差,则根据所述偏差对所述主题模型进行优化。


4.根据权利要求2所述方法,其特征在于,所述方法还包括:
定期将采集到的所有应用日志存入所述语料库中,用于进一步对所述优化所述分词规则和噪声识别规则。


5.根据权利要求2所述的方法,其特征在于所述统计分词模型为N元文法(N-gram)语言模型。

【专利技术属性】
技术研发人员:蒋通通叶晓龙孟震任赣竺士杰乔柏林胡林熙张琪
申请(专利权)人:中国移动通信集团浙江有限公司中国移动通信集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1