一种日志解析规则自动生成方法和装置制造方法及图纸

技术编号:19009117 阅读:24 留言:0更新日期:2018-09-22 08:59
本发明专利技术公开了一种日志解析规则自动生成方法和装置,该方法包括:日志分词步骤,接收新增设备日志,并对所述新增设备日志进行自动分词;语法分析步骤,对分出的词赋予语法定义;正则生成步骤,根据所述语法定义生成解析规则正则表达式;以及字段映射步骤,将所述解析规则正则表达式自动作用到服务端解析引擎。通过本发明专利技术,用户可以不用编写任何代码的前提下就可以自动完成设备日志接入,极大地降低了日志解析的难度和复杂度,从而提升对日志进行解析规则开发的效率。

An automatic generation method and device for log analysis rules

The invention discloses a method and device for automatically generating log parsing rules, which comprises a log word segmentation step, a receiving device log and an automatic word segmentation for the newly added device log, a grammatical analysis step, a grammatical definition for the separated words, a regular generation step, and a generation step according to the grammatical definition. Resolve regular expressions for rules; and field mapping steps that automatically act the regular expressions for parsing rules to the server-side parsing engine. By the invention, users can automatically complete device log access without writing any code, greatly reducing the difficulty and complexity of log parsing, thereby improving the efficiency of developing log parsing rules.

【技术实现步骤摘要】
一种日志解析规则自动生成方法和装置
本专利技术涉及安全管理
,具体地,涉及一种日志解析规则自动生成方法和装置。
技术介绍
在现有技术中,通过编写代码来接入计算机中新增的设备日志,从而对日志解析难度较大、复杂度较高,从而对日志进行解析规则开发的效率极低。
技术实现思路
本专利技术的目的是为了解决对日志解析难度较大、复杂度较高,从而对日志进行解析规则开发的效率极低的技术问题。为了实现上述目的,本专利技术采用以下技术方案:本专利技术提供了一种日志解析规则自动生成方法,包括:日志分词步骤,接收新增设备日志,并对所述新增设备日志进行自动分词;语法分析步骤,对分出的词赋予语法定义;正则生成步骤,根据所述语法定义生成解析规则正则表达式;以及字段映射步骤,将所述解析规则正则表达式自动作用到服务端解析引擎。优选地,在所述日志分词步骤中,构建有穷状态自动机,通过所述有穷状态自动机对所述新增设备日志中的逐个字符进行分析,当遇到停止词字典中的停止词时,则退出所述有穷状态自动机并输出词法标记,然后返回所述有穷状态自动机继续分词,直到所述新增设备日志中的全部字符分析完成为止,从而将所述新增设备日志切分成词列表。优选地,在计算机系统中内置有或通过用户定义有语法分析规则,在所述语法分析步骤中,接收所述词法标记,并将所述语法分析规则与所述词法标记进行匹配,若具有与所述词法标记匹配的语法分析规则,则对切分出的词列表中的每个词赋予与所述词法标记匹配的语法分析规则中的语法定义,若没有与所述词法标记匹配的语法分析规则,则对所述词法标记赋予默认的语法分析规则。优选地,在所述语法分析步骤中,所述语法定义包括时间戳、IP地址、URL地址、用户代理、整数、浮点数、文件、用户名中的一个或多个。优选地,在所述语法分析步骤中,将不同的词法标记分别与语法分析规则进行匹配,对于同一个词法标记,将词法标记与多个语法分析规则进行匹配,并选择与词法标记匹配度最大的语法分析规则。优选地,在所述正则生成步骤中,将所述语法定义的组合转换成解析规则正则表达式,并与未解析成功的日志片段进行拼接。优选地,在所述字段映射步骤中,所述服务端解析引擎对所述解析规则正则表达式中的字段进行函数操作,以将所述解析规则正则表达式中的字段映射成为所述服务端解析引擎需要的最终字段。优选地,在所述字段映射步骤中,将所述解析规则正则表达式自动上传到服务器上,并通过可视化界面对用户展示,用户通过所述可视化界面对所述解析规则正则表达式进行二次确认和保存,并重新下发到服务端解析引擎。优选地,在所述字段映射步骤中,将所述解析规则正则表达式和语法分析规则与词法标记的匹配度自动上传到服务器上,并通过可视化界面对用户展示,用户通过所述可视化界面对所述解析规则正则表达式进行修正,并重新下发到服务端解析引擎。本专利技术还提供了一种日志解析规则自动生成装置,用于执行上述日志解析规则自动生成方法,所述日志解析规则自动生成装置包括:日志分词模块,接收新增设备日志,并对所述新增设备日志进行自动分词;语法分析模块,对切分出的词赋予语法定义;正则生成模块,根据所述语法定义生成解析规则正则表达式;以及字段映射模块,将生成的所述解析规则正则表达式自动作用到服务端解析引擎。与现有技术相比,本专利技术具有以下优点和有益效果:通过本专利技术,用户可以不用编写任何代码的前提下就可以自动完成设备日志接入,极大地降低了日志解析的难度和复杂度,从而提升对日志进行解析规则开发的效率。附图说明图1是日志分词步骤的流程图;图2是语法分析步骤的流程图;图3是日志解析规则自动生成装置的结构图。具体实施方式下面将参考附图,对本专利技术做进一步详细的说明,以便于本专利技术更加清楚和易于理解。本领域的普通技术人员可以认识到,在不偏离本专利技术的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。下面结合图1-3详细说明本专利技术的实施例。本专利技术的日志解析规则自动生成方法包括:日志分词步骤、语法分析步骤、正则生成步骤以及字段映射步骤。在日志分词步骤中,接收新增设备日志,并对新增设备日志进行自动分词。优选地,在日志分词步骤中,如图1所示,构建有穷状态自动机(FSM),通过FSM对新增设备日志中的逐个字符进行分析,当遇到停止词字典中的停止词时,则退出FSM并输出词法标记(词法token),然后返回所述有穷状态自动机继续分词,直到所述新增设备日志中的全部字符分析完成为止,从而将所述新增设备日志切分成词列表。停止词字典可以动态进行更新,根据实际情况可以针对不同的设备类型设置不同的停止词字典。在语法分析步骤中,对分出的词赋予语法定义。优选地,在计算机系统中内置或通过用户定义有语法分析规则,在语法分析步骤中,如图2所示,接收词法标记,并将语法分析规则与词法标记进行匹配。若具有与词法标记匹配的语法分析规则,则对切分出的词列表中的每个词赋予与词法标记匹配的语法分析规则中的语法定义。若没有与词法标记匹配的语法分析规则,则对词法标记赋予默认的语法分析规则。优选地,语法分析规则包含两部分内容,第一部分是语法定义,包括但不限于时间戳、IP地址、URL地址、用户代理(User-Agent)、整数、浮点数、文件、用户名等,第二部分是正则表达式定义,对于不同的语法定义制定不同的正则表达式。优选地,在语法分析步骤中,多线程地将不同的词法标记分别与语法分析规则进行匹配。对于同一个词法标记,将词法标记与多个语法分析规则进行匹配,并选择与词法标记匹配度最大的语法分析规则。因此,能够高效输出匹配结果。在正则生成步骤中,根据语法定义生成解析规则正则表达式。优选地,在正则生成步骤中,将语法定义的组合转换成解析规则正则表达式,并与未解析成功的日志片段进行拼接以。在字段映射步骤中,将解析规则正则表达式自动作用到服务端解析引擎。优选地,在字段映射步骤中,服务端解析引擎对解析规则正则表达式中的字段进行函数操作,以将解析规则正则表达式中的字段映射成为服务端解析引擎需要的最终字段。优选地,在字段映射步骤中,将解析规则正则表达式自动上传到服务器上,并通过可视化界面对用户展示,用户通过可视化界面对解析规则正则表达式进行二次确认和保存,并重新下发到服务端解析引擎。优选地,在字段映射步骤中,将解析规则正则表达式和语法分析规则与词法标记的匹配度自动上传到服务器上,并通过可视化界面对用户展示,用户通过可视化界面对解析规则正则表达式进行修正,并重新下发到服务端解析引擎,以对解析规则正则表达式进行优化。本专利技术还包括一种用于执行上述日志解析规则自动生成方法的日志解析规则自动生成装置,如图3所示,包括:日志分词模块,接收新增设备日志,并对新增设备日志进行自动分词;语法分析模块,对切分出的词赋予语法定义;正则生成模块,根据语法定义生成解析规则正则表达式;以及字段映射模块,将生成的解析规则正则表达式自动作用到服务端解析引擎。通过本专利技术,用户可以不用编写任何代码的前提下就可以自动完成设备日志接入,极大地降低了日志解析的难度和复杂度,从而提升对日志进行解析规则开发的效率。以上所述仅为本专利技术的优选实施例,并不用于限本文档来自技高网...
一种日志解析规则自动生成方法和装置

【技术保护点】
1.一种日志解析规则自动生成方法,包括:日志分词步骤,接收新增设备日志,并对所述新增设备日志进行自动分词;语法分析步骤,对分出的词赋予语法定义;正则生成步骤,根据所述语法定义生成解析规则正则表达式;以及字段映射步骤,将所述解析规则正则表达式自动作用到服务端解析引擎。

【技术特征摘要】
1.一种日志解析规则自动生成方法,包括:日志分词步骤,接收新增设备日志,并对所述新增设备日志进行自动分词;语法分析步骤,对分出的词赋予语法定义;正则生成步骤,根据所述语法定义生成解析规则正则表达式;以及字段映射步骤,将所述解析规则正则表达式自动作用到服务端解析引擎。2.根据权利要求1所述的日志解析规则自动生成方法,在所述日志分词步骤中,构建有穷状态自动机,通过所述有穷状态自动机对所述新增设备日志中的逐个字符进行分析,当遇到停止词字典中的停止词时,则退出所述有穷状态自动机并输出词法标记,然后返回所述有穷状态自动机继续分词,直到所述新增设备日志中的全部字符分析完成为止,从而将所述新增设备日志切分成词列表。3.根据权利要求2所述的日志解析规则自动生成方法,在计算机系统中内置有或通过用户定义有语法分析规则,在所述语法分析步骤中,接收所述词法标记,并将所述语法分析规则与所述词法标记进行匹配,若具有与所述词法标记匹配的语法分析规则,则对切分出的词列表中的每个词赋予与所述词法标记匹配的语法分析规则中的语法定义,若没有与所述词法标记匹配的语法分析规则,则对所述词法标记赋予默认的语法分析规则。4.根据权利要求3所述的日志解析规则自动生成方法,在所述语法分析步骤中,所述语法定义包括时间戳、IP地址、URL地址、用户代理、整数、浮点数、文件、用户名中的一个或多个。5.根据权利要求3所述的日志解析规则自动生成方法,在所述语法分析步骤中,多线程地将不同的词法标记分别与语法分析规则进行匹配,对于同一个词法标记,...

【专利技术属性】
技术研发人员:邸壮
申请(专利权)人:北京仁和诚信科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1