The invention discloses a method and device for storing and extracting log data, including acquiring log data to be stored, extracting log recognition field value and log detail field value of the log data according to the preset log recognition field and log detail field, calculating MD5 value of the log recognition field value as the unique identification of the log data, and querying the first database. If the MD5 value exists, the number of repetitions of the MD5 value in the first database is updated and the log details field value is stored in the second database; otherwise, if not, the MD5 value and the log recognition field value are added in the first database, and the MD5 value and the log details field value are added in the second database. This method can solve the problem of repeated storage of log fields in log processing, reduce the occupancy of log storage resources, and improve the efficiency of log analysis by using different databases to read and write data separately.
【技术实现步骤摘要】
一种日志数据存储、提取方法及装置
本专利技术涉及数据处理
,尤其涉及一种日志存储、提取方法及装置。
技术介绍
随着企事业单位内部应用系统的建设,以及移动互联网、物联网等技术在企业中的推进使用,企事业所产生的数据类型和数据量越来越多,事实上企事业内部所产生的数据绝大部分是日志数据,如服务器日志、网络设备日志、终端计算机日志数据等,日志数据是实现企业内部应用系统运维监控、安全审计、行为分析、数据价值挖掘的重要数据源,目前已经有成熟的ETL(Extract-Transform-Load)技术和工具实现企业内部日志数据的采集、搜索、分析及可视化,如Elastic公司提供的Elasticsearch、LogstashKibana等工具,极大丰富了企业数据入库存储手段及展示的效果。通常情况下,企事业内部所产生的日志数据大多是重复的,如网络交换机设备所产生的日志数据,其格式基本一致,不同的是日志产生时间和日志操作内容,若面对企事业内部网络庞大、网络流量较多、网络设备日志量较大的情况,这种多数字段重复的日志不仅在收集时浪费服务器性能,在存储时消耗存储资源,更在计算或展示时会降低处理速度。其他日志如终端计算机操作日志、服务器日志、应用系统审计日志等,都存在一定量的重复数据。因此,对实时采集的日志数据流进行去重处理,是企事业单位能否有效利用其自身数据的重要前提。因此,本专利技术提供一种日志存储、提取方法及装置,提出一种对大量重复字段日志数据在入库前的优化方法,减轻日志数据的冗余度,并使用不同数据库分开读写数据,既降低了日志数据存储成本,又提高了日志数据分析计算效率。专利 ...
【技术保护点】
1.一种日志数据存储方法,其特征在于,包括以下步骤:获取待存储的日志数据,根据预设的日志识别字段和日志详情字段提取所述日志数据的日志识别字段值和日志详情字段值;计算所述日志识别字段值的MD5值,作为所述日志数据的唯一标识;查询第一数据库中是否存在所述MD5值,若存在,则更新所述第一数据库中所述MD5值的重复次数,并将所述日志详情字段值存入至第二数据库;反之,若不存在,则在第一数据库中新增所述MD5值以及所述日志识别字段值,并在第二数据库中新增所述MD5值以及所述日志详情字段值。
【技术特征摘要】
1.一种日志数据存储方法,其特征在于,包括以下步骤:获取待存储的日志数据,根据预设的日志识别字段和日志详情字段提取所述日志数据的日志识别字段值和日志详情字段值;计算所述日志识别字段值的MD5值,作为所述日志数据的唯一标识;查询第一数据库中是否存在所述MD5值,若存在,则更新所述第一数据库中所述MD5值的重复次数,并将所述日志详情字段值存入至第二数据库;反之,若不存在,则在第一数据库中新增所述MD5值以及所述日志识别字段值,并在第二数据库中新增所述MD5值以及所述日志详情字段值。2.如权利要求1所述的方法,其特征在于,在获取待存储的日志数据之前,还包括配置日志识别字段和日志详情字段,所述日志识别字段是指能够区分日志数据的字段,包括设备ID、设备IP地址、设备MAC地址、设备所属机构、访问URL地址以及访问目标IP地址;所述日志详情字段指的是需要展示日志详情的字段,包括访问类别、事件内容以及日志记录时间。3.如权利要求2所述的方法,其特征还在于,若日志数据中存在多次重复的一类数据值,则可对此类数据值归类为某一个字段,此时可将所述字段配置为日志识别字段。4.一种日志数据提取方法,其特征还在于,包括以下步骤:获取日志数据提取的请求,得到所述提取请求的日志识别字段值或/和日志详情字段值;根据所述日志识别字段值或/和日志详情字段值,从第一数据库或/和第二数据库中提取所述日志的所有日志识别字段值或/和日志详情字段值。5.如权利要求4所述的方法,其特征还在于,根据所述提取请求中字段值的类别,具体包括以下三种情况:1)若所述提取请求中仅包含日志识别字段,则只需根据所述日志识别字段的值从第一数据库中提取其他的日志识别字段值;2)若所述提取请求中既包含日志识别字段也包含日志详情字段,则先根据所述日志识别字段的值从第一数据库中获得MD5值和所有的日志识别字段值,再根据所述MD5值从第二数据库中提取相应的日志详情字段值,将所述获得的字段值进行合并,重新得到原始日志数据;3)若所述提取请求中仅包含日志详情字段,则根据所述日志详情字段的值从第二数据库中...
【专利技术属性】
技术研发人员:林皓,唐彪,杨军,蔡卓,冯艳,
申请(专利权)人:北京北信源软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。