IT系统运维监控数据辅助预处理方法和系统技术方案

技术编号:21140738 阅读:33 留言:0更新日期:2019-05-18 05:03
本发明专利技术提供一种IT系统运维监控数据的辅助预处理方法和系统,基于Hadoop采集运维监控数据,将运维监控数据以文件形式进行存储,得到原文件数据;判断原文件数据的各条数据条目的长度是否一致,若长度一致,则将所述数据条目定义为协议类数据;若长度不一致,则将所述数据条目定义为日志类数据;对协议类数据、日志类数据分别进行预处理,得到预处理结果数据;展示预处理结果数据、原文件数据,供运维人员按需调整。可适用于各类IT系统运维监控数据,减少运维人员在对数据进行人工解析过程中对专家的依赖度;易于实现,复杂度不高,且随着数据样本数的增多能够不断获得更精确的预处理结果,以辅助运维人员做进一步的数据处理。

【技术实现步骤摘要】
IT系统运维监控数据辅助预处理方法和系统
本专利技术涉及大数据处理
,具体地,涉及一种IT系统运维监控数据的辅助预处理方法和系统,尤其是一种用于大数据保存环境的IT系统运维监控数据的辅助预处理方法。
技术介绍
当今,几乎任何一家企业的业务开展都离不开IT系统的支持,为了保障系统的正常运行,企业通常会使用一套监控软件来辅助其运维人员实施对IT系统的运维工作。随着企业业务量的增加,IT系统也变得越来越复杂,随之产生的运维监控数据的种类和数量也大幅增长,由此形成了两个问题:1)大量的运维监控数据需要保存,传统的保存方法成本过高,且在大数据量情况下,处理能力衰减严重;2)数据协议、种类繁多,且随着系统的更新,随时可能有新的类型产生,仅靠运维人员对新数据进行人工解析,不仅工作量大,而且往往需要领域专家的配合才能开展工作。与此同时,数据量的增加也意味着数据样本的丰富,这为数据的自动化解析带来了可能。基于上述情况,如采用大数据技术对大规模的运维监控数据进行存储,则能够大幅降低存储成本,并提高对数据的处理能力。而基于大量的数据样本,自动的对运维监控数据进行一定程度的预处理,大致的划分出数据段,则能够减少运维人员的数据解析工作的工作量,只需以预处理结果为蓝本,在此基础上做精细的调整就可完成解析工作。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种IT系统运维监控数据的辅助预处理方法和系统。根据本专利技术提供的一种IT系统运维监控数据的辅助预处理方法,包括:数据采集步骤:基于Hadoop采集运维监控数据,将运维监控数据以文件形式进行存储,得到原文件数据;数据分类步骤:判断原文件数据的各条数据条目的长度是否一致,若长度一致,则将所述数据条目定义为协议类数据;若长度不一致,则将所述数据条目定义为日志类数据;数据预处理步骤:对协议类数据、日志类数据分别进行预处理,得到预处理结果数据;数据展示步骤:展示预处理结果数据、原文件数据,供运维人员按需调整。优选地,所述数据预处理步骤包括:协议类数据预处理步骤:对协议类数据,通过对比各条数据条目之间的公共部分,得到数据条目的区段划分,将区段划分保存在Hive表格;日志类数据预处理步骤:对日志类数据,通过设定逻辑对数据条目的最长公共子序列进行计算,得到数据条目的常量区段、变量区段,将常量区段、变量区段保存在Hive表格。优选地,所述协议类数据预处理步骤包括:提取公共部分步骤:抽取协议类数据的每条数据条目,比较各数据条目,将数据条目分成相同字节、差异字节,将相同字节记为公共部分;统计变化率步骤:比对数据条目的公共部分,统计各字节位的变化率,依照预设的变化率百分比阈值,得到区段划分依据;第一表格保存步骤:根据区段划分依据,利用组件创建第一Hive表格,将经区段划分后的数据保存在第一Hive表格中。优选地,所述日志类数据预处理步骤包括:区段区分步骤:将数据条目中的字节按照设定逻辑进行常变量区分,得到常量区段、变量区段;获取最长公共子序列步骤:根据常量区段,计算各数据条目的最长公共子序列,将最长公共子序列的长度记为第二长度,将数据条目的长度记为第一长度;创建数据结构实例步骤:比较第二长度与第一长度,若第二长度超出第一长度的一半,则创建第一数据结构实例;否则,则创建第二数据结构实例;第二表格保存步骤:针对第一数据结构实例、第二数据结构实例分别创建第二Hive表格,将经常变量区分后的数据保存在第二Hive表格中。根据本专利技术提供的一种IT系统运维监控数据的辅助预处理系统,包括:数据采集模块:基于Hadoop采集运维监控数据,将运维监控数据以文件形式进行存储,得到原文件数据;数据分类模块:判断原文件数据的各条数据条目的长度是否一致,若长度一致,则将所述数据条目定义为协议类数据;若长度不一致,则将所述数据条目定义为日志类数据;数据预处理模块:对协议类数据、日志类数据分别进行预处理,得到预处理结果数据;数据展示模块:展示预处理结果数据、原文件数据,供运维人员按需调整。优选地,所述数据预处理模块包括:协议类数据预处理模块:对协议类数据,通过对比各条数据条目之间的公共部分,得到数据条目的区段划分,将区段划分保存在Hive表格;日志类数据预处理模块:对日志类数据,通过设定逻辑对数据条目的最长公共子序列进行计算,得到数据条目的常量区段、变量区段,将常量区段、变量区段保存在Hive表格。优选地,所述协议类数据预处理模块包括:提取公共部分模块:抽取协议类数据的每条数据条目,比较各数据条目,将数据条目分成相同字节、差异字节,将相同字节记为公共部分;统计变化率模块:比对数据条目的公共部分,统计各字节位的变化率,依照预设的变化率百分比阈值,得到区段划分依据;第一表格保存模块:根据区段划分依据,利用组件创建第一Hive表格,将经区段划分后的数据保存在第一Hive表格中。优选地,所述日志类数据预处理模块包括:区段区分模块:将数据条目中的字节按照设定逻辑进行常变量区分,得到常量区段、变量区段;获取最长公共子序列模块:根据常量区段,计算各数据条目的最长公共子序列,将最长公共子序列的长度记为第二长度,将数据条目的长度记为第一长度;创建数据结构实例模块:比较第二长度与第一长度,若第二长度超出第一长度的一半,则创建第一数据结构实例;否则,则创建第二数据结构实例;第二表格保存模块:针对第一数据结构实例、第二数据结构实例分别创建第二Hive表格,将经常变量区分后的数据保存在第二Hive表格中。优选地,所述比较各数据条目是在数据条目中随机抽取一条作为基准条目,将基准条目与其它条目做逐一比对,比对两两之间的每个字节的异同性,将公共的字节位标记为相同字节,将不同的字节位标记为差异字节;所述统计各字节位的变化率是计算数据条目中各字节相对前一个字节的变化率;所述区段划分依据是将变化率高的字节作为区段划分的起始字节。与现有技术相比,本专利技术具有如下的有益效果:1、本专利技术能够以低廉的成本对海量的运维监控数据进行保存,并确保数据预处理算法的可行性;2、通过预处理过程对监控数据进行区段划分,并以表格形式保存,大幅减少运维人员对数据进行人工解析的工作量,使得运维人员只需进行少量调整便可得到所述的数据处理效果;3、预处理算法可适用于各类IT系统运维监控数据,具有普适性,减少运维人员在对数据进行人工解析过程中对专家的依赖度;4、数据预处理算法易于实现,复杂度不高,且随着数据样本数的增多能够不断获得更精确的预处理结果。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术的协议类数据解析算法详解图;图2为本专利技术的日志类数据解析算法详解图;图3为本专利技术的系统模块结构图;图4为本专利技术的数据处理流程图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。本专利技术针对IT系统运维监控软件接收到的海量的各类监控数据,实现基于大数据架构的分布式存储,并在此基础上设计了数据自动预处理方法,通过对一定量数据样本本文档来自技高网...

【技术保护点】
1.一种IT系统运维监控数据的辅助预处理方法,其特征在于,包括:数据采集步骤:基于Hadoop采集运维监控数据,将运维监控数据以文件形式进行存储,得到原文件数据;数据分类步骤:判断原文件数据的各条数据条目的长度是否一致,若长度一致,则将所述数据条目定义为协议类数据;若长度不一致,则将所述数据条目定义为日志类数据;数据预处理步骤:对协议类数据、日志类数据分别进行预处理,得到预处理结果数据;数据展示步骤:展示预处理结果数据、原文件数据,供运维人员按需调整。

【技术特征摘要】
1.一种IT系统运维监控数据的辅助预处理方法,其特征在于,包括:数据采集步骤:基于Hadoop采集运维监控数据,将运维监控数据以文件形式进行存储,得到原文件数据;数据分类步骤:判断原文件数据的各条数据条目的长度是否一致,若长度一致,则将所述数据条目定义为协议类数据;若长度不一致,则将所述数据条目定义为日志类数据;数据预处理步骤:对协议类数据、日志类数据分别进行预处理,得到预处理结果数据;数据展示步骤:展示预处理结果数据、原文件数据,供运维人员按需调整。2.根据权利要求1所述的IT系统运维监控数据的辅助预处理方法,其特征在于,所述数据预处理步骤包括:协议类数据预处理步骤:对协议类数据,通过对比各条数据条目之间的公共部分,得到数据条目的区段划分,将区段划分保存在Hive表格;日志类数据预处理步骤:对日志类数据,通过设定逻辑对数据条目的最长公共子序列进行计算,得到数据条目的常量区段、变量区段,将常量区段、变量区段保存在Hive表格。3.根据权利要求2所述的IT系统运维监控数据的辅助预处理方法,其特征在于,所述协议类数据预处理步骤包括:提取公共部分步骤:抽取协议类数据的每条数据条目,比较各数据条目,将数据条目分成相同字节、差异字节,将相同字节记为公共部分;统计变化率步骤:比对数据条目的公共部分,统计各字节位的变化率,依照预设的变化率百分比阈值,得到区段划分依据;第一表格保存步骤:根据区段划分依据,利用组件创建第一Hive表格,将经区段划分后的数据保存在第一Hive表格中。4.根据权利要求2所述的IT系统运维监控数据的辅助预处理方法,其特征在于,所述日志类数据预处理步骤包括:区段区分步骤:将数据条目中的字节按照设定逻辑进行常变量区分,得到常量区段、变量区段;获取最长公共子序列步骤:根据常量区段,计算各数据条目的最长公共子序列,将最长公共子序列的长度记为第二长度,将数据条目的长度记为第一长度;创建数据结构实例步骤:比较第二长度与第一长度,若第二长度超出第一长度的一半,则创建第一数据结构实例;否则,则创建第二数据结构实例;第二表格保存步骤:针对第一数据结构实例、第二数据结构实例分别创建第二Hive表格,将经常变量区分后的数据保存在第二Hive表格中。5.一种IT系统运维监控数据的辅助预处理系统,其特征在于,包括:数据采集模块:基于Hadoop采集运维监控数据,将运维监控数据以文件形式进行存储,得到原文件数据;数据分类模块:判断原文件数据的各条数据条目的长度是否一致,若...

【专利技术属性】
技术研发人员:陈劭力王巍
申请(专利权)人:上海华讯网络系统有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1