当前位置: 首页 > 专利查询>伊姆西公司专利>正文

日志存储优化方法和设备技术

技术编号:14907999 阅读:61 留言:0更新日期:2017-03-29 23:01
本公开的实施例涉及一种日志存储优化方法和设备,所述方法包括:接收日志数据;使用解析规则将该日志数据转换为结构化数据;以及对该结构化数据进行编码,以减少日志的存储空间。本公开的实施例通过对日志记录进行结构化转换和对转换后的数据进行压缩编码,能够减少日志的存储空间并且提高日志的分析效率。

【技术实现步骤摘要】

本公开的实施例总体上涉及数据存储技术,更具体地涉及日志存储优化的方法和设备。
技术介绍
日志是指系统(例如,软件、应用)或设备(例如,服务器、终端设备)发生的事务或操作的记录。日志数据包含系统或设备的所有活动和行为的有序记录,一般为半结构化的数据,例如,单行日志、复杂的多行日志。技术人员通常对日志数据进行搜索、关联、可视化、分析以及记录,以标识和解决系统或设备的操作和安全问题。现代的软件定义数据中心(SDDC)架构能够不断地生成日志数据,其生成速度往往比技术人员能够处理的速度更快。由于活动和数据的数量呈现指数级的增长,生成的日志数量也在快速增长,例如,某些存储服务器每天能够生成高达几TB的日志数据。现代的SDDC架构具有针对多层应用的自动的且动态的部署能力,因此需要实时地对日志进行分析。日志的有效分析是系统或设备的复杂故障诊断、动态高性能以及更好安全性的关键保障。一般来说,对日志进行搜索分析的方法非常低效,此外,虽然现有的处理方法也会采取压缩和去重处理,但是日志的熵并没有得到减少。因此,如何对现有的海量日志进行处理,实现海量日志的优化存储并且提高日志分析效率,成为一个亟待解决的问题。
技术实现思路
有鉴于此,本公开的实施例提供一种日志存储优化方法和设备,能够减少日志的存储空间并且提高日志的分析效率。根据本公开的一个方面,公开了一种日志存储优化的方法,该方法包括接收日志数据;使用解析规则将日志数据转换为结构化数据;以及对结构化数据进行编码,以减少日志的存储空间。根据本公开的一个实施例,进一步包括:在接收到日志数据之后,遍历日志简档储存库,确定日志简档储存库中是否存在对应于日志数据的结构化日志简档,以生成解析规则,其中结构化日志简档存储库用于存储经转换的结构化数据。根据本公开的另一个实施例,其中确定日志简档储存库中是否存在对应于日志数据的结构化日志简档,以生成解析规则包括:在日志简档储存库中存在对应于日志数据的结构化日志简档时,根据对应的结构化日志简档来生成对应的解析规则。根据本公开的又一个实施例,其中确定日志简档储存库中是否存在对应于日志数据的结构化日志简档,以生成解析规则包括:在日志简档储存库中不存在对应于日志数据的结构化日志简档时,通过自适应学习过程来获得对应于日志数据的结构化日志简档和解析规则、或者手动定义对应于日志数据的结构化日志简档和解析规则。根据本公开的一个实施例,进一步包括:在遍历日志简档储存库之前,当用于生成日志数据的日志配置可访问时,根据日志配置来直接生成结构化日志简档和相应的解析规则。根据本公开的一个实施例,其中结构化日志简档至少包括日志的时间戳和内容数据。根据本公开的另一个实施例,其中解析规则是正则表达式或者字符串模板。根据本公开的一个实施例,其中使用解析规则将日志数据转换为结构化数据进一步包括:在使用解析规则将日志数据转换为结构化数据之后,设定基准时间,计算每条日志的时间戳与基准时间之间的时间差,并且利用时间差来替代结构化数据中的时间戳数据。根据本公开的另一个实施例,其中基准时间是第一条日志的时间戳或者是基于周期性的时间。根据本公开的一个实施例,其中对结构化数据进行编码包括:对于结构化数据中的各种类型的值,计算相同类型的值中的每个值的出现概率,以生成编码规则。根据本公开的另一个实施例,其中生成编码规则包括:将出现概率较大的值编码为长度较短的值,其中出现概率与出现次数成正比。根据本公开的又一个实施例,其中将出现概率较大的值编码为长度较短的值包括:将出现概率最大的值编码为值“1”。根据本公开的一个实施例,其中生成编码规则包括:根据编码规则自适应学习过程来自动生成编码规则。根据本公开的另一个实施例,其中编码规则是哈夫曼编码。根据本公开的另一个实施例,进一步包括:在使用编码规则对结构化数据进行编码之后,以日志向量的形式存储经编码的结构化数据。根据本公开的另一个方面,公开了一种日志存储优化设备,该设备包括:接收装置,用于接收日志数据;转换装置,用于使用解析规则将该日志数据转换为结构化数据;以及编码装置,用于对该结构化数据进行编码,以减少日志的存储空间。本公开的示例性实施例可以带来以下技术效果中的至少一种:通过对日志数据进行结构化转换、基于列的方式对转换后的数据进行编码、和/或对日志的时间戳进行编码,能够提高日志的分析效率,并且有效地降低了日志熵,达到减少日志的存储空间的效果,从而提高日志的存档效率。附图说明结合附图并参考以下详细说明,本公开的各实施例的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本公开的若干实施例。在附图中:图1图示了根据本公开的实施例的日志存储优化方法100的流程图;图2图示了根据本公开的实施例的日志记录的示例;图3图示了根据本公开的实施例对日志记录进行分解的示例;图4图示了根据本公开的实施例的描述结构化日志简档的示例;图5图示了根据本公开的实施例的利用正则表达式对日志内容部分进行解析的示例;图6图示了根据本公开的实施例的利用字符串模板对日志内容部分进行解析的示例;图7图示了根据本公开的实施例的通过相对编码来减少时间戳熵的示例;图8图示了根据本公开的实施例的从列的角度对通用日志分段进行分析的示例;图9图示了根据本公开的实施例的模块名称的有限集合的示例;图10图示了根据本公开的实施例的对日志数据进行编码的示例;图11图示了根据本公开的另一实施例的编码规则的自适应学习生成过程的流程图;图12图示了根据本公开的另一实施例的日志存储优化方法的处理流程图;图13图示了根据本公开的实施例的日志数据的存储优化的结果的示例;图14图示了根据本公开的实施例的日志存储优化设备1400的框图;以及图15图示了可以在其中实现根据本公开的实施例的计算机设备1500的框图。具体实施方式以下参考附图详细描述本公开的各个示例性实施例。附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。本文所使用的术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一个实施例”、“又一个实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。应当理解,给出这些示例性实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开的实施例,而并非以任何方式限制专利技术的范围。图1图示了根据本公开的实施例的日志存储优化方法100的流程图。本文档来自技高网...

【技术保护点】
一种日志存储优化方法,包括:接收日志数据;使用解析规则将所述日志数据转换为结构化数据;以及对所述结构化数据进行编码,以减少日志的存储空间。

【技术特征摘要】
1.一种日志存储优化方法,包括:接收日志数据;使用解析规则将所述日志数据转换为结构化数据;以及对所述结构化数据进行编码,以减少日志的存储空间。2.根据权利要求1所述的方法,进一步包括:在接收到所述日志数据之后,遍历日志简档储存库,确定所述日志简档储存库中是否存在对应于所述日志数据的结构化日志简档,以生成所述解析规则,其中所述结构化日志简档存储库用于存储经转换的所述结构化数据。3.根据权利要求2所述的方法,其中确定所述日志简档储存库中是否存在对应于所述日志数据的结构化日志简档,以生成所述解析规则包括:在所述日志简档储存库中存在对应于所述日志数据的结构化日志简档时,根据对应的所述结构化日志简档来生成对应的解析规则。4.根据权利要求2所述的方法,其中确定所述日志简档储存库中是否存在对应于所述日志数据的结构化日志简档,以生成所述解析规则包括:在所述日志简档储存库中不存在对应于所述日志数据的结构化日志简档时,通过自适应学习过程来获得对应于所述日志数据的结构化日志简档和解析规则、或者手动定义对应于所述日志数据的结构化日志简档和解析规则。5.根据权利要求2所述的方法,进一步包括:在遍历所述日志简档储存库之前,当用于生成所述日志数据的日志配置可访问时,根据所述日志配置来直接生成结构化日志简档和相应的解析规则。6.根据权利要求2-5中任一项所述的方法,其中所述结构化日志简档至少包括日志的时间戳和内容数据。7.根据权利要求2-5中任一项所述的方法,其中所述解析规则是正则表达式或者字符串模板。8.根据权利要求1所述的方法,其中使用解析规则将所述日志数据转换为结构化数据进一步包括:在使用所述解析规则将所述日志数据转换为结构化数据之后,设定基准时间,计算每条日志的时间戳与所述基准时间之间的时间差,并且利用所述时间差来替代所述结构化数据中的时间戳数据。9.根据权利要求8所述的方法,其中所述基准时间是第一条日志的时间戳或者是基于周期性的时间。10.根据权利要求1所述的方法,其中对所述结构化数据进行编码包括:对于所述结构化数据中的各种类型的值,计算相同类型的值中的每个值的出现概率,以生成所述编码规则。11.根据权利要求10所述的方法,其中生成所述编码规则包括:将所述出现概率较大的值编码为长度较短的值,其中所述出现概率与出现次数成正比。12.根据权利要求11所述的方法,其中将所述出现概率较大的值编码为长度较短的值包括:将所述出现概率最大的值编码为值“1”。13.根据权利要求10所述的方法,其中生成所述编码规则包括:根据编码规则自适应学习过程来自动生成所述编码规则。14.根据权利要求10-13中任一项所述的方法,其中所述编码规则是哈夫曼编码。15.根据权利要求1所述的方法,进一步包括:在使用编码规则对所述结构化数据进行编码之后,以日志向量的形式存储经编码的所述结构化数据。16.一种日志存储优化设备,包括:接收装置,用于接收日...

【专利技术属性】
技术研发人员:王天青陆明刚陈超徐昊包捷马金龙
申请(专利权)人:伊姆西公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1