一种日志数据存储、提取方法及装置制造方法及图纸

技术编号:20545777 阅读:48 留言:0更新日期:2019-03-09 18:43
本发明专利技术公开一种日志数据存储、提取方法及装置,包括:获取待存储的日志数据,根据预设的日志识别字段和日志详情字段提取所述日志数据的日志识别字段值和日志详情字段值;计算所述日志识别字段值的MD5值,作为所述日志数据的唯一标识;查询第一数据库中是否存在所述MD5值,若存在,则更新所述第一数据库中所述MD5值的重复次数,并将所述日志详情字段值存入至第二数据库;反之,若不存在,则在第一数据库中新增所述MD5值以及所述日志识别字段值,并在第二数据库中新增所述MD5值以及所述日志详情字段值。通过本方法可以解决日志处理时的日志字段重复存储的问题,降低日志的存储资源占用率,利用不同数据库分开读写数据可以提高日志分析效率。

A Method and Device for Storing and Extracting Log Data

The invention discloses a method and device for storing and extracting log data, including acquiring log data to be stored, extracting log recognition field value and log detail field value of the log data according to the preset log recognition field and log detail field, calculating MD5 value of the log recognition field value as the unique identification of the log data, and querying the first database. If the MD5 value exists, the number of repetitions of the MD5 value in the first database is updated and the log details field value is stored in the second database; otherwise, if not, the MD5 value and the log recognition field value are added in the first database, and the MD5 value and the log details field value are added in the second database. This method can solve the problem of repeated storage of log fields in log processing, reduce the occupancy of log storage resources, and improve the efficiency of log analysis by using different databases to read and write data separately.

【技术实现步骤摘要】
一种日志数据存储、提取方法及装置
本专利技术涉及数据处理
,尤其涉及一种日志存储、提取方法及装置。
技术介绍
随着企事业单位内部应用系统的建设,以及移动互联网、物联网等技术在企业中的推进使用,企事业所产生的数据类型和数据量越来越多,事实上企事业内部所产生的数据绝大部分是日志数据,如服务器日志、网络设备日志、终端计算机日志数据等,日志数据是实现企业内部应用系统运维监控、安全审计、行为分析、数据价值挖掘的重要数据源,目前已经有成熟的ETL(Extract-Transform-Load)技术和工具实现企业内部日志数据的采集、搜索、分析及可视化,如Elastic公司提供的Elasticsearch、LogstashKibana等工具,极大丰富了企业数据入库存储手段及展示的效果。通常情况下,企事业内部所产生的日志数据大多是重复的,如网络交换机设备所产生的日志数据,其格式基本一致,不同的是日志产生时间和日志操作内容,若面对企事业内部网络庞大、网络流量较多、网络设备日志量较大的情况,这种多数字段重复的日志不仅在收集时浪费服务器性能,在存储时消耗存储资源,更在计算或展示时会降低处理速度。其他日志如终端计算机操作日志、服务器日志、应用系统审计日志等,都存在一定量的重复数据。因此,对实时采集的日志数据流进行去重处理,是企事业单位能否有效利用其自身数据的重要前提。因此,本专利技术提供一种日志存储、提取方法及装置,提出一种对大量重复字段日志数据在入库前的优化方法,减轻日志数据的冗余度,并使用不同数据库分开读写数据,既降低了日志数据存储成本,又提高了日志数据分析计算效率。专利
技术实现思路
本专利技术的目的在于提供一种日志存储、提取方法及装置,通过日志数据存储入库前的去重处理以及不同数据库分开存储,一方面减轻日志数据的冗余度,降低存储成本,另一方面提高日志数据提取分析的效率。首先,本专利技术提供了一种日志数据存储方法,包括以下步骤:获取待存储的日志数据,根据预设的日志识别字段和日志详情字段提取所述日志数据的日志识别字段值和日志详情字段值;计算所述日志识别字段值的MD5值,作为所述日志数据的唯一标识;查询第一数据库中是否存在所述MD5值,若存在,则更新所述第一数据库中所述MD5值的重复次数,并将所述日志详情字段值存入至第二数据库;反之,若不存在,则在第一数据库中新增所述MD5值以及所述日志识别字段值,并在第二数据库中新增所述MD5值以及所述日志详情字段值。进一步地,在获取待存储的日志数据之前,还包括配置日志识别字段和日志详情字段,所述日志识别字段是指能够区分日志数据的字段,包括设备ID、设备IP地址、设备MAC地址、设备所属机构、访问URL地址以及访问目标IP地址;所述日志详情字段指的是需要展示日志详情的字段,包括访问类别、事件内容以及日志记录时间。进一步地,若日志数据中存在多次重复的一类数据值,则可对此类数据值归类为某一个字段,此时可将所述字段配置为日志识别字段。其次,本专利技术还提供了一种日志数据提取方法,包括以下步骤:获取日志数据的提取请求,得到所述提取请求的日志识别字段值或/和日志详情字段值;根据所述日志识别字段值或/和日志详情字段值,从第一数据库或/和第二数据库中提取所述日志的所有日志识别字段值或/和日志详情字段值。进一步地,根据所述请求数据中字段值的类别,具体包括以下三种情况:1)若所述提取请求中仅包含日志识别字段,则只需根据所述日志识别字段的值从第一数据库中提取其他的日志识别字段值;2)若所述提取请求中既包含日志识别字段也包含日志详情字段,则先根据所述日志识别字段的值从第一数据库中获得MD5值和所有的日志识别字段值,再根据所述MD5值从第二数据库中提取相应的日志详情字段值,将所述获得的字段值进行合并,重新得到原始日志数据;3)若所述提取请求中仅包含日志详情字段,则根据所述日志详情字段的值从第二数据库中获得MD5值和所有的日志详情字段值,再根据所述MD5值从第一数据库中提取相应的日志识别字段值,将所述获得的字段值进行合并,重新得到原始日志数据。相应地,本专利技术提供了一种日志数据存储装置,所述装置包括:获取模块,用于获取待存储的日志数据,提取所述日志数据的日志识别字段值和日志详情字段值;计算模块,用于计算所述日志识别字段值的MD5值;查询模块,用于查询第一数据库中是否存在所述MD5值;存储模块,用于存储所述MD5值、所述日志识别字段值以及所述日志详情字段值。进一步地,所述装置还包括配置模块,用于配置日志识别字段和日志详情字段,分别存储在第一数据库和第二数据库中。进一步地,所述配置模块,还包括当日志数据中存在多次重复的一类数据值,则可对此类数据值归类为某一个字段,此时所述配置模块还可将所述字段配置为日志识别字段。相应地,本专利技术也提供了一种日志数据提取的装置,所述装置包括:获取模块,用于获取日志数据的提取请求,得到所述提取请求中的日志识别字段值或/和日志详情字段值;提取模块,用于根据所述日志识别字段值或/和日志详情字段值从第一数据库或/和第二数据库中提取所述日志的所有日志识别字段值或/和日志详情字段值。进一步地,根据所述请求数据中字段值的类别,所述提取模块还具体包括以下三种情况:1)若所述提起请求中仅只包含日志识别字段,则只需根据所述日志识别字段的值从第一数据库中提取其他的日志识别字段值;2)若所述提取请求中既包含日志识别字段也包含日志详情字段,则先根据所述日志识别字段的值从第一数据库中获得MD5值和所有的日志识别字段值,再根据所述MD5值从第二数据库中提取相应的日志详情字段值,将所述获得的字段值进行合并,重新得到原始日志数据;3)若所述提取请求中仅包含日志详情字段,则根据所述日志详情字段的值从第二数据库中获得MD5值和所有的日志详情字段值,再根据所述MD5值从第一数据库中提取相应的日志识别字段值,将所述获得的字段值进行合并,重新得到原始日志数据。通过日志数据存储入库前的去重处理以及不同数据库分开存储,一方面减轻日志数据的冗余度,降低存储成本,另一方面提高日志数据提取分析的效率;再者,根据提取请求中是否含有日志详情字段,判断是否需要生成、返回原始日志数据,有效的提高日志数据提取效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种日志数据存储的方法流程图;图2为本专利技术实施例提供的一种日志数据提取的方法流程图;图3为本专利技术实施例提供的一种日志数据存储的装置结构示意图;图4为本专利技术实施例提供的一种日志数据提取的装置结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,需要指出的是,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非本文档来自技高网
...

【技术保护点】
1.一种日志数据存储方法,其特征在于,包括以下步骤:获取待存储的日志数据,根据预设的日志识别字段和日志详情字段提取所述日志数据的日志识别字段值和日志详情字段值;计算所述日志识别字段值的MD5值,作为所述日志数据的唯一标识;查询第一数据库中是否存在所述MD5值,若存在,则更新所述第一数据库中所述MD5值的重复次数,并将所述日志详情字段值存入至第二数据库;反之,若不存在,则在第一数据库中新增所述MD5值以及所述日志识别字段值,并在第二数据库中新增所述MD5值以及所述日志详情字段值。

【技术特征摘要】
1.一种日志数据存储方法,其特征在于,包括以下步骤:获取待存储的日志数据,根据预设的日志识别字段和日志详情字段提取所述日志数据的日志识别字段值和日志详情字段值;计算所述日志识别字段值的MD5值,作为所述日志数据的唯一标识;查询第一数据库中是否存在所述MD5值,若存在,则更新所述第一数据库中所述MD5值的重复次数,并将所述日志详情字段值存入至第二数据库;反之,若不存在,则在第一数据库中新增所述MD5值以及所述日志识别字段值,并在第二数据库中新增所述MD5值以及所述日志详情字段值。2.如权利要求1所述的方法,其特征在于,在获取待存储的日志数据之前,还包括配置日志识别字段和日志详情字段,所述日志识别字段是指能够区分日志数据的字段,包括设备ID、设备IP地址、设备MAC地址、设备所属机构、访问URL地址以及访问目标IP地址;所述日志详情字段指的是需要展示日志详情的字段,包括访问类别、事件内容以及日志记录时间。3.如权利要求2所述的方法,其特征还在于,若日志数据中存在多次重复的一类数据值,则可对此类数据值归类为某一个字段,此时可将所述字段配置为日志识别字段。4.一种日志数据提取方法,其特征还在于,包括以下步骤:获取日志数据提取的请求,得到所述提取请求的日志识别字段值或/和日志详情字段值;根据所述日志识别字段值或/和日志详情字段值,从第一数据库或/和第二数据库中提取所述日志的所有日志识别字段值或/和日志详情字段值。5.如权利要求4所述的方法,其特征还在于,根据所述提取请求中字段值的类别,具体包括以下三种情况:1)若所述提取请求中仅包含日志识别字段,则只需根据所述日志识别字段的值从第一数据库中提取其他的日志识别字段值;2)若所述提取请求中既包含日志识别字段也包含日志详情字段,则先根据所述日志识别字段的值从第一数据库中获得MD5值和所有的日志识别字段值,再根据所述MD5值从第二数据库中提取相应的日志详情字段值,将所述获得的字段值进行合并,重新得到原始日志数据;3)若所述提取请求中仅包含日志详情字段,则根据所述日志详情字段的值从第二数据库中...

【专利技术属性】
技术研发人员:林皓唐彪杨军蔡卓冯艳
申请(专利权)人:北京北信源软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1