用于在日志分析系统中实现日志解析器的方法和系统技术方案

技术编号:17202194 阅读:35 留言:0更新日期:2018-02-04 03:02
公开了用于实现日志分析方法和系统的系统、方法和计算机程序产品,该日志分析方法和系统可以以高效的方式来配置、收集和分析日志记录。已经描述了通过分析日志的行内容来自动生成日志解析器的改进方法。此外,已经描述了从日志内容中提取键‑值内容的高效方法。

【技术实现步骤摘要】
【国外来华专利技术】用于在日志分析系统中实现日志解析器的方法和系统
技术介绍
许多类型的计算系统和应用生成与该计算系统或应用的操作相关或由该计算系统或应用的操作引起的大量数据。这些大量数据被存储到诸如日志文件/记录之类的收集的位置中,如果需要分析系统或应用的行为或操作,则这些收集的位置可以在稍后的时间段被审查。服务器管理员和应用管理员可以通过学习和分析系统日志记录的内容来获益。但是,收集和分析这些记录会是非常有挑战性的任务。这些挑战有很多原因。一个显著的问题涉及以下事实:许多现代组织拥有非常大量的计算系统,每个计算系统具有在这些计算系统上运行的大量应用。考虑到在这些计算设备上运行的大量相异的(disparate)系统和应用,在大型系统中配置、收集和分析日志记录会非常困难。此外,这些应用中的一些应用可以实际上在多个计算系统上运行以及跨多个计算系统运行,从而使得协调日志配置和收集的任务更加成问题。常规的日志分析工具提供收集和分析日志记录的基本能力。但是,当面临大型系统包括具有在这些系统上运行的大量应用的大量计算系统的问题时,常规系统不能高效地缩放。这是因为常规系统常常以每台主机为基础进行工作,其中每当在系统中添加或新配置新的主机时,都需要执行设置和配置活动,或者甚至需要针对现有的主机执行新的日志收集/配置活动。考虑到现代系统中存在大量的主机,这种方法非常低效。此外,常规方法(特别是本地(on-premise)解决方案)也不能充分地允许共享资源和分析部件。这造成大量且过量的冗余处理和资源使用。常规的日志分析工具在涉及由日志分析工具使用的日志解析器的构建时也是非常低效的。日志解析器是理解如何解析日志内的条目的工具。常规地,日志解析器必须由必须既熟知待分析的日志文件的确切格式又熟练掌握将用来实现解析器的具体编程基础设施的人来手动构建。手动构建日志解析器的常规方法的一个问题是这个过程需要来自熟练技术人员的大量时间和资源以构建解析器。此外,这种方法还需要过多的手动资源以在日志文件的格式发生改变的情况下维护解析器。此外,这种手动方法必然需要对日志文件格式的先验知识。因此,需要改进的方法来实现日志分析系统。还需要提供更高效的方式来实现用于日志分析系统的日志解析器。
技术实现思路
本专利技术的一些实施例通过提供自动构建日志解析器的方法来解决上述问题。作为需要人来手动创建日志解析器的内容的替代,日志内容本身被用来构建解析器。根据一些实施例,提供了方法、系统或计算机可读介质,该方法、系统或计算机可读介质通过以下操作来构建日志解析器:识别要分析的日志,创建将日志的内容映射到用于日志内的一个或多个数据部分的识别出的元素类型的映射结构,从日志中选择数据部分,相对于映射结构分析该数据部分以识别可变部分和不可变部分,对于可变部分中的至少一个可变部分将该至少一个可变部分指派给涵盖在该至少一个可变部分中检测到的值的可变性的限制最少的数据类型,以及自动生成用于日志解析器的正则表达式。正则表达式在一些实施例中可以包括不可变部分以及用于可变部分的占位符,以实现日志解析器,其中至少两个不同的占位符与不同的数据类型相关联。在一些实施例中,用于识别可变部分和不可变部分的专利技术性方法可以通过以下操作来执行:从日志中识别行以对照映射结构进行比较,从该行的开头开始并且向前移动直到识别出不匹配为止,找到下一个公共字符,将中间范围标记为可变的,并且循环直到达到行的末尾。在映射结构内,元素类型可以包括字符串类型、整数类型、字母字符类型或字段规则类型中的至少一个,其中字段规则类型与由规则定义的元素序列对应。多个行被分组在一起,作为用于针对映射结构进行分析的单个条目。在可替代方案中,多个行的内容可以被操纵成单个行。可以通过以下操作来识别用于日志内的分析范围的定界符:识别日志的两个行内的公共元素,对公共元素进行评分,对公共元素进行评分通过考虑公共元素的位置结合一个或多个加权因子来进行,以及基于评分结果来选择一个公共元素作为定界符。在一些情况下,加权因子可以包括与多个元素的组合对应的规则。此外,可以为公共元素的位置计算总和或平均值。可以通过以下操作来从日志中提取键字段和值字段:由识别第一键值分隔符以及迭代地识别行内的键值对分隔符来识别用于评估一个或多个键值对的范围,并且迭代地遍历该行以从键值分隔符的实例的左侧提取键字段并且从键值分隔符的实例的右侧提取值字段。可以对日志应用预处理,以对日志的字段和值部分进行分类。除了预处理之外或作为预处理的代替,可以应用后处理,以校正内容向键字段或值字段的有问题的指派。根据一些实施例,日志解析器在被实施为基于云的体系架构和/或基于SaaS(软件即服务)的体系架构的日志分析系统中被采用。由日志分析系统处理的原始日志数据可以源自任何日志产生源,诸如数据库管理系统(DBMS)、数据库应用(DBApp)、中间件、操作系统、硬件部件或任何其它日志产生应用、部件或系统。日志监视可以使用配置机制来配置,该配置机制包括用户可操作的UI控件以便为日志收集配置选择和配置日志收集配置和目标表示。日志收集配置包括信息集合(例如,日志规则、日志源信息和日志类型信息),该信息集合识别要收集什么数据(例如,哪些日志文件)、要收集的数据的位置(例如,目录位置)、如何访问数据(例如,日志的格式和/或日志内要获取的具体字段)、和/或何时收集数据(例如,定期)。目标表示识别“目标”,“目标”是包含日志和/或产生日志的单独的部件。这些目标与客户环境中的具体部件/主机相关联。当前实施例通过将目标与日志规则和/或日志源相关联来配置日志收集/监视的能力为本专利技术提供了独特的优点。这是因为配置日志监视的用户不需要具体地确切了解用于给定应用的日志如何跨环境内的不同主机和部件而定位或分布。代替地,用户仅需要选择要对其进行监视的具体目标(例如,应用),以及然后配置要在其下执行日志收集过程的具体参数。在具体实施方式、附图和权利要求中描述本专利技术的其它附加目的、特征和优点。附图说明下面参考附图描述各种实施例。应当指出,附图不是按比例绘制的,并且贯穿整个附图,具有相似结构或功能的元件由相似的附图标记表示。还应当指出,附图仅旨在便于对实施例的描述。它们不旨在作为对本专利技术的详尽描述或作为对本专利技术的范围的限制。图1A示出了在本专利技术的一些实施例中可以被采用的示例系统。图1B示出了在本专利技术的一些实施例中可以被采用的方法的流程图。图2示出了报告UI。图3A-图3C提供了日志分析系统的内部结构以及客户环境内的与日志分析系统交互的部件的较详细图示。图4A-图4C示出了实现日志收集配置的方法。图5示出了通过将日志规则与目标相关联来实现日志收集配置的方法的流程图。图6示出了通过将日志源与目标相关联来实现日志收集配置的方法的流程图。图7示出了实现用于日志监视的基于目标的配置的方法的流程图。图8示出了根据本专利技术的一些实施例的、实现用于日志监视的基于目标的配置的方法的较详细的流程图。图9示出了根据本专利技术的一些实施例的示例XML配置内容。图10示出了将被包括在配置文件中以促进日志解析的服务器侧信息。图11示出了实现本专利技术的一些实施例的这个方面的一种可能方法的流程图。图12示出了用于实现将日志分析规则与可变位置相关联的专利技术性方法的一些实施例的体系架构。本文档来自技高网
...
用于在日志分析系统中实现日志解析器的方法和系统

【技术保护点】
一种用处理器实现的方法,包括:识别要分析的日志;创建映射结构,所述映射结构将所述日志的内容映射到用于所述日志内的一个或多个数据部分的识别出的元素类型;从所述日志中选择数据部分;相对于所述映射结构分析所述数据部分,以识别可变部分和不可变部分;对于所述可变部分中的至少一个可变部分,将所述至少一个可变部分指派给限制最少的数据类型,所述限制最少的数据类型涵盖在所述至少一个可变部分中检测到的值的可变性;以及自动生成用于所述不可变部分的正则表达式,所述正则表达式具有用于所述可变部分的占位符以实现日志解析器,其中至少两个不同的占位符与不同的数据类型相关联。

【技术特征摘要】
【国外来华专利技术】2015.04.03 US 62/142,9871.一种用处理器实现的方法,包括:识别要分析的日志;创建映射结构,所述映射结构将所述日志的内容映射到用于所述日志内的一个或多个数据部分的识别出的元素类型;从所述日志中选择数据部分;相对于所述映射结构分析所述数据部分,以识别可变部分和不可变部分;对于所述可变部分中的至少一个可变部分,将所述至少一个可变部分指派给限制最少的数据类型,所述限制最少的数据类型涵盖在所述至少一个可变部分中检测到的值的可变性;以及自动生成用于所述不可变部分的正则表达式,所述正则表达式具有用于所述可变部分的占位符以实现日志解析器,其中至少两个不同的占位符与不同的数据类型相关联。2.如权利要求1所述的方法,其中识别所述可变部分和所述不可变部分包括:从所述日志中识别行,以对照所述映射结构进行比较;从所述行的开头开始,并且向前移动,直到识别出不匹配为止;找到下一个公共字符;将中间范围标记为可变的;以及循环直到达到所述行的末尾。3.如前述权利要求中任一项所述的方法,其中为所述映射结构内的元素识别元素类型,所述元素类型包括字符串类型、整数类型、字母字符类型或字段规则类型中的至少一个,其中所述字段规则类型与由规则定义的元素序列对应。4.如前述权利要求中任一项所述的方法,其中多个行被分组在一起,作为用于对照所述映射结构进行分析的单个条目。5.如权利要求4所述的方法,其中所述多个行的内容被操纵成单个行。6.如前述权利要求中...

【专利技术属性】
技术研发人员:G·M·法拉尔
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1