一种基于自然语言的日志载体格式提取方法和装置制造方法及图纸

技术编号:25836501 阅读:27 留言:0更新日期:2020-10-02 14:17
本发明专利技术提供了一种基于自然语言的日志载体格式提取方法和装置,涉及日志处理技术领域,所述方法包括以下步骤:通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。本发明专利技术还提供了一种电厂设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备异常判断方法。本发明专利技术可以在不事先设置关键字的情况下,对日志载体格式进行提取,并用于解析日志和异常判断。

【技术实现步骤摘要】
一种基于自然语言的日志载体格式提取方法和装置
本专利技术涉及日志处理
,特别是涉及一种基于自然语言的日志载体格式提取方法和装置,以及电厂设备日志解析方法、电厂设备日志异常判断方法和电厂区域设备异常判断方法。
技术介绍
目前,各种设备在运作时会产生用于记录事件的日志,每一行日志都记载着对于日期、时间、设备信息等相关信息的描述。日志分析在故障排查、性能分析方面有着非常重要的作用。通常直接使用已经预设好关键词的日志载体格式对日志进行解析。例如已经预设关键词date(日志日期)、time(日志时间)、devname(电厂设备编号)、BaseTrapSeverity(基线平均值),并得到日志载体格式为以下字符串构成“date=,time=,devname=,BaseTrapSeverity=”。当新获取日志的字符串为“date=2020-03-01,time=20:39:01,devname=S124DN3W08051005,BaseTrapSeverity=6”时,其中“date”、“time”、“devn本文档来自技高网...

【技术保护点】
1.一种基于自然语言的日志载体格式提取方法,其特征在于,包括以下步骤:/n通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;/n获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;/n利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。/n

【技术特征摘要】
1.一种基于自然语言的日志载体格式提取方法,其特征在于,包括以下步骤:
通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流;
获取每个分流内部的变量与常量,并将其中的变量的字符串删除,将其中的常量的字符串保留;
利用字符串拼接的方式将每个分流中常量的字符串进行组合,得到日志载体格式进行保存。


2.根据权利要求1所述的基于自然语言的日志载体格式提取方法,其特征在于,所述通过语境分词,将接入的原始日志流拆分为与各个日志数据段对应的分流,具体包括:
提取出原始日志流中以分隔符号分隔开的字符串作为与各个日志数据段对应的分流。


3.根据权利要求1所述的基于自然语言的日志载体格式提取方法,其特征在于,所述获取每个分流内部的变量与常量包括:
通过正则匹配的方式匹配出每个分流中的运算符或连接符,并提取运算符或连接符左侧的值作为常量的字符串,将运算符或连接符右侧的值作为变量的字符串。


4.根据权利要求1所述的基于自然语言的日志载体格式提取方法,其特征在于,所述利用字符串拼接的方式将每个分流中的常量的字符串进行组合,包括:
利用字符串拼接的方式依次将每个分流的格式字符串拼接起来,其中每个分流的格式字符串包括当前分流的常量的字符串、当前分流包含的运算符或连接符,以及固定格式符;且每个分流的格式字符串之间采用分隔符号连接。


5.根据权利要求1所述的基于自然语言的日志载体格式提取方法,其特征在于,所述原始日志流为电厂设备日志,所述日志数据段包括:日志日期、日志时间、电厂设备编号、电厂设备状态和电厂服务器状态。


6.一种电厂设备日志解析方法,其特征在于,包括以下步骤:
获取存储的日志载体格式,并利用存储的日志载体格式对接入的原始日志流进行匹配解析;
在匹配解析成功时,输出日志解析结果;
在匹配解析失败时,利用权利要求1-5中任一项所述的基于自然语言的日志载体格式提取方法提取新的日志载体格式并保存;利用新的日志载体格式对原始日志流进行匹配解析。


7.一种电厂设备日志异常判断方法,其特征在于,包括:<...

【专利技术属性】
技术研发人员:王晓辉姜双林周磊饶志波
申请(专利权)人:北京安帝科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1