一种基于大数据的服务器运行日志结构化存储方法技术

技术编号:18165743 阅读:15 留言:0更新日期:2018-06-09 11:36
本发明专利技术提供一种基于大数据的服务器运行日志结构化存储方法,按照统一的时间点和时间间隔采集集群服务器的日志文件数据并发送给大数据平台,采集的同时制作时间戳;根据时间戳制作集群服务器数据的时间维度表;大数据平台将接收到的日志文件数据后经MAP处理成Key‑Value格式;然后进行多维度的多层嵌套,并将时间标签作为最外层维度,最后再进行分布式存储;查询时通过大数据分布式计算引擎先根据时间标签和时间维度表在时间维度上查询以获得满足条件的集群服务器的日志文件数据。本发明专利技术基于大数据平台实现分布式存储和计算,通过MAP操作实现数据的结构化,从而有效解决服务器集群日志文件不断膨胀的海量数据的存储问题,且支持SQL、NoSQL查询方式。

A structured storage method for server running logs based on big data

The invention provides a structured storage method for server running log based on large data, collecting log file data of cluster server according to unified time point and time interval, sending it to large data platform, making time stamp at the same time, making time dimension table of cluster server data according to time stamp; large number. According to the log file data received by the platform, it is processed into Key Value format by MAP, and then multi-dimensional nesting is carried out, and the time label is used as the outermost dimension, and then the distributed storage is carried out. Query to get the log file data of the clustered server that meets the requirements. The invention is based on the large data platform to realize distributed storage and calculation. The data is structured through MAP operation, which can effectively solve the problem of storage of massive data which are expanding in the server cluster log file, and support the SQL and NoSQL query methods.

【技术实现步骤摘要】
一种基于大数据的服务器运行日志结构化存储方法
本专利技术涉及一种服务器运行日志的存储方法,特别涉及一种基于大数据的服务器运行日志的存储方法。
技术介绍
服务器的环境中存在日志文件数据存储的问题,如果每秒钟采集服务器性能指标,一台服务器一天日志量约为260MB,一台服务器一年的日志量约为100GB,如果有50台服务器,则一年的日志量将是个海量数据。而现有服务器日志的存储方法是通过部署运维监控软件收集服务器的运行日志数据以纯文本格式存储到本地文件系统或者关系型数据库系统,都难以解决日志文件存储数据量庞大的问题,传统的方案只能定时删除日志文件,并且海量数据的访问效率极慢,无法实现数据的访问和分析。
技术实现思路
本专利技术要解决的技术问题,在于提供一种基于大数据的服务器运行日志结构化存储方法,基于大数据平台实现分布式存储和分布式计算存储,通过MAP操作实现服务器运维日志数据的结构化,可以实现SQL、NoSQL等常用查询方式。本专利技术是这样实现的:一种基于大数据的服务器运行日志结构化存储方法,按照统一的时间点和时间间隔采集集群服务器的日志文件数据并发送给大数据平台,采集的同时制作时间戳;根据时间戳制作集群服务器数据的时间维度表;大数据平台将接收到的日志文件数据后经MAP处理成Key-Value格式;通过大数据平台将Key-Value格式的日志文件数据进行多维度的多层嵌套,并将时间标签作为最外层维度,最后再进行分布式存储;查询时通过大数据分布式计算引擎先根据时间标签和时间维度表在时间维度上查询以获得满足条件的集群服务器的日志文件数据。进一步的,所述集群服务器上部署有时间同步器,实现每台服务器的数据采集器按照统一的时间点和时间间隔采集数据。进一步的,所述日志文件数据经多维度的多层嵌套后具有以下特点:数据多层嵌套存储了集群所有服务器的性能指标数据、并且实现时间序列的数据流StreamingData、便于机器学习使用时间序列。进一步的,所述查询包括SQL查询和NO-SQL查询;所述SQL查询是:通过SQL直接查询分析数据,通过Key-value和SQL的表列字段和行数据实现映射关系;所述NO-SQL查询是:通过NoSQL数据分析查询,通过多层嵌套关系和NoSQL的行键、列簇、列信息实现映射关系。本专利技术具有如下优点:1、通过大数据平台进行分布式存储和分布式计算,从而有效解决服务器集群日志文件不断膨胀的海量数据的存储问题;2、将数据进行特定格式化存储,转换为的Key-Value数据的特定结构化的存储格式,并且按照特定规范进行数据的嵌套,实现数据的结构化存储,便于兼容多个其他数据引擎数据SQL查询或者NoSQL的查询,为后续的数据分析访问和机器学习提供了数据可用性。具体实施方式本专利技术的基于大数据的服务器运行日志结构化存储方法,包括:按照统一的时间点和时间间隔采集集群服务器的日志文件数据并发送给大数据平台,采集的同时制作时间戳;根据时间戳制作集群服务器数据的时间维度表,从而在查询时可实现在时间维度上获取所有服务器的运维数据的目的,运维数据主要包括服务器CPU使用率、内存使用率、硬盘使用率、IO消耗、网络带宽资源使用率等参数;具体可以在所述集群服务器上部署时间同步器,从而实现每台服务器的数据采集器按照统一的时间点和时间间隔采集数据。大数据平台将接收到的日志文件数据后进行MAP处理,使用Key-Value(服务器指标项-指标值,例如:CpuUsed:80%表示CPU使用了80%)的格式存放到大数据平台;通过大数据平台将Key-Value格式的日志文件数据进行多维度的多层嵌套,并将时间标签作为最外层维度,最后再进行分布式存储,从而在查询时可以通过时间标签快速搜索到某个时间的所有集群服务器的信息;所述日志文件数据经多维度的多层嵌套后具有以下特点:数据多层嵌套间点的所有集群的性能指标数据、并且可以轻易实现时间序列的数据流StreamingData、机器学习使用时间序列,这样一方面可实现日志存储文件的海量存储,另一方而可通过大数据分布式计算引擎实现海量数据的秒级查询分析。查询时通过大数据分布式计算引擎先根据时间标签和时间维度表在时间维度上查询以获得满足条件的集群服务器的日志文件数据。由于采用了Key-Value结构存储,使查询支持SQL查询和NO-SQL查询两种方式,使数据的访问兼容性得到扩展。其中:所述SQL查询是:通过SQL直接查询分析数据,通过Key-value和SQL的表列字段和行数据实现映射关系;所述NO-SQL查询是:通过NoSQL数据分析查询,通过多层嵌套关系和NoSQL的行键、列簇、列信息实现映射关系。综上,本专利技术通过大数据平台进行分布式存储和分布式计算;将数据进行特定格式化存储,转换为的Key-Value数据的特定结构化的存储格式,并且按照特定规范进行数据的嵌套,实现数据的结构化存储,便于兼容多个其他数据引擎数据SQL查询或者NoSQL的查询,为后续的数据分析访问和机器学习提供了数据可用性,从而有效解决服务器集群日志文件不断膨胀的海量数据的存储问题。虽然以上描述了本专利技术的具体实施方式,但是熟悉本
的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本专利技术的范围的限定,熟悉本领域的技术人员在依照本专利技术的精神所作的等效的修饰以及变化,都应当涵盖在本专利技术的权利要求所保护的范围内。本文档来自技高网
...

【技术保护点】
一种基于大数据的服务器运行日志结构化存储方法,其特征在于:按照统一的时间点和时间间隔采集集群服务器的日志文件数据并发送给大数据平台,采集的同时制作时间戳;根据时间戳制作集群服务器数据的时间维度表;大数据平台将接收到的日志文件数据后经MAP处理成Key‑Value格式;通过大数据平台将Key‑Value格式的日志文件数据进行多维度的多层嵌套,并将时间标签作为最外层维度,最后再进行分布式存储;查询时通过大数据分布式计算引擎先根据时间标签和时间维度表在时间维度上查询以获得满足条件的集群服务器的日志文件数据。

【技术特征摘要】
1.一种基于大数据的服务器运行日志结构化存储方法,其特征在于:按照统一的时间点和时间间隔采集集群服务器的日志文件数据并发送给大数据平台,采集的同时制作时间戳;根据时间戳制作集群服务器数据的时间维度表;大数据平台将接收到的日志文件数据后经MAP处理成Key-Value格式;通过大数据平台将Key-Value格式的日志文件数据进行多维度的多层嵌套,并将时间标签作为最外层维度,最后再进行分布式存储;查询时通过大数据分布式计算引擎先根据时间标签和时间维度表在时间维度上查询以获得满足条件的集群服务器的日志文件数据。2.根据权利要求1所述的一种基于进化算法的交互式本体匹配方法,其特征在于:所述集群服务器上部署有时间同步器,实现每台服务器的...

【专利技术属性】
技术研发人员:黄桥藩
申请(专利权)人:福建星瑞格软件有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1