大型数据中心服务器应用角色划分的方法技术

技术编号:18203892 阅读:29 留言:0更新日期:2018-06-13 06:11
本发明专利技术涉及服务器运维管理技术领域,尤其涉及一种大型数据中心服务器应用角色划分的方法。本发明专利技术提出的大型数据中心服务器应用角色划分的方法,有效克服了传统运维方法的缺陷,无须耗费大量人力物力去采集、统计数据;无须运维人员对数据中心的应用的系统架构有充分的经验知识;能自动构建基于服务器的使用状况和日志数据,有效辅助运维人员掌握数据中心的服务器角色扮演情况。

【技术实现步骤摘要】
大型数据中心服务器应用角色划分的方法
本专利技术涉及服务器运维管理
,尤其涉及一种大型数据中心服务器应用角色划分的方法。
技术介绍
近年来,大型数据中心的服务器数量的快速增长给其运维管理部门带来了巨大压力。运维管理人员越来越难以掌握数据中心内部的服务器的实际使用情况,及服务器在使用中主要扮演的角色,难以对服务器进行维护和掌握使用情况。随着互联网的飞速发展,云计算和大数据时代的到来,很多企业开始搭建属于自己的数据中心和云计算平台,以支撑企业自身庞大而复杂的业务系统。然而,由于系统规模的增加带来的系统内在的复杂性和动态性,对数据中心的服务器资源管理来说具有很大的挑战性。在数据中心的服务器上运行着数量众多且关系错综复杂的业务系统,不同的服务器在其中担任着不同角色,承担着不同功能。但运维管理人员,对数据中心的很多问题都无法掌握清楚。例如:运维管理人员无法细致了解服务器上的任意程序,每个业务系统的边界,业务系统内部服务器的关系,业务系统间的关系等问题。所以当服务器出现故障时运维人员无法准确找到原因。若仅通过登记等管理手段,记录服务器的使用情况、功能情况、角色类别等信息,将带来很多问题。这些记录不具有时效性、准确性、全面性,也造成了管理上的不便和误导。另一方面,目前已有的数据中心的运维管理大多数集中于实时监控。虽然数据中心保存了海量的历史运行记录数据,但并没有进行有效的挖掘利用,如何从这些历史数据中,发现服务器的运行模式特点,掌握服务器的角色类别,并针对性的进行安全监控和管理。
技术实现思路
针对现有技术存在的不足,本专利技术提供了一种大型数据中心服务器应用角色划分的方法,以实现对数据中心服务器进行有效的运维管理。本专利技术提供了如下方案:一种大型数据中心服务器应用角色划分的方法,包括以下步骤:S1解析一定时间段内的大型数据中心服务器的原始日志数据,上述时间段以天为单位,将非结构化的原始日志数据进行去噪、序列化、转换、解压等处理;从原始日志数据中提取进程信息数据,该进程信息数据中至少包括采样的服务器名称,进程ID,CPU使用率,虚拟内存使用率,进程名称,路径,参数七项内容;从原始日志数据中提取服务器的日志采样时间数据,该日志采样时间数据至少包括服务器的名称和服务器的CPU核数两项内容;S2过滤服务器启动时的加载进程,避免此类进程对服务器角色划分的影响,并提取进程特征;对于进程名称以“[”符号开头的进程和虚拟内存使用率为0的进程,认为是服务器启动时的加载进程,过滤不再使用;否则,保留该进程以用于服务器角色划分使用;从S1所述进程信息数据中提取所有服务器的进程信息数据,至少包括各服务器中各进程的进程名称和虚拟内存使用率;利用这些进程信息数据和服务器的日志采样时间数据计算服务器各进程的特征值TF‐IDF;计算服务器各进程的特征信息TF-IDF,包括:遍历当前时间戳下筛选过的服务器,统计各个服务器采样的频次,统计每台虚机中,各个进程出现的频次TF值,统计各个进程在所有采样中出现的频次DF值,则:TF‐IDF=TF/DFTF-IDF值越大,表明服务器间区分程度越大;S3计算各进程对于服务器分类的贡献度,构建多维度特征矩阵:S3.1首先,统计每个进程的正样本出现频率A、负样本出现频率B、正样本不出现频率C、负样本不出现频率D以及样本总数N:S3.1.1遍历训练数据,统计样本中属于指定角色的正样本数量N1和样本总数N;S3.1.2遍历训练数据,统计所有服务器包含的进程,形成进程集合;S3.1.3遍历进程集合内的所有进程,统计进程出现在指定服务器角色中的正样本出现频率A和出现在非指定角色中的负样本出现频率B;S3.1.4利用A与C不存在交集,且并集为正样本数量,得到C;S3.1.5利用B和D不存在交集且并集为负样本数量得到D;S3.2计算各进程对分类作用的贡献CHI:遍历各进程,对每一个进程利用如下所述公式进行计算,得到CHI值:CHI值的大小代表该特征对分类的贡献程度,CHI越大,对分类区分程度越大;S3.3根据所述的特征值TF-IDF和进程对分类作用的贡献CHI,构造特征矩阵,包括:根据计算得到的各进程对分类作用的贡献CHI,选择前20%数值大的进程作为分类使用的属性;利用上述计算得到的特征值TF-IDF作为属性的值;构造一个高维度的特征矩阵,其中维度数即筛选出的属性数量。S4根据构建的特征矩阵,训练支持向量机SVM(SupportVectorMachine)分类模型,其中将构造的各服务器的特征矩阵作为样本输入,样本标记的各服务器类别作为样本输出;训练一个适用于服务器角色划分的分类器模型;S5在测试集上,对采样服务器进行特征值TF-IDF计算,利用S3中选取的进程作为特征矩阵的属性;选择相应进程的特征值TF-IDF作为属性值,以此构建测试集的特征矩阵。S6以在测试集上构建的多维特征矩阵作为分类器的输入,以训练好的支持向量机分类器模型作为核心,以服务器的分类作为输出,以此来对未知的测试集服务器进行角色划分。本专利技术具有以下技术效果:本专利技术提出的大型数据中心服务器应用角色划分的方法,有效克服了传统运维方法的缺陷,无须耗费大量人力物力去采集、统计数据;无须运维人员对数据中心的应用的系统架构有充分的经验知识;能自动构建基于服务器的使用状况和日志数据,有效辅助运维人员掌握数据中心的服务器角色扮演情况。附图说明图1为本专利技术一个实施例中的服务器应用角色划分的方法流程图。具体实施方式为便于对本专利技术实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本专利技术实施例的限定。本专利技术实施例为了克服现有的基于人工统计的数据中心业务逻辑网络的信息缺失、滞后等问题,提出了一种大型数据中心服务器应用角色划分的方法,该方法能真实反映数据中心的业务逻辑结构及服务器使用情况,有效辅助运维人员准确掌握数据中心的业务逻辑架构。本专利技术实施例提出的一种数据中心服务器应用角色划分的方法,其处理流程包括以下步骤:S1解析一定时间段内的大型数据中心服务器的原始日志数据,上述时间段以天为单位,在实际应用中时间段也可以选择周、月等时间间隔,将非结构化的原始日志数据进行去噪、序列化、转换、解压等处理。从原始日志数据中提取进程信息数据,该进程信息数据中至少包括采样的服务器名称,进程ID,CPU使用率,虚拟内存使用率,进程名称,路径,参数七项内容。该进程信息数据包括如下的表1所示的字段;表1从原始日志数据中提取服务器的日志采样时间数据,至少包括服务器的名称和服务器的CPU核数。上述日志采样时间数据包括如下的表2所示的字段:表2编号名称解释1服务器名称采样的服务器名称2服务器CPU核数服务器包含的CPU核数3日期采样的日期S2过滤服务器启动时的加载进程,避免此类进程对服务器角色划分的影响。过滤的计算方法如下:遍历当前时间段下的所有进程信息数据,提取各服务器中各进程的进程名称和虚拟内存使用率;对于进程名称以“[”符号开头的进程和虚拟内存使用率为0的进程,认为是服务器启动时的加载进程,过滤不再使用;否则,保留该进程以用于服务器角色划分使用。在上述过滤方式的基础上,对保留进程提取进程的特征信息数据TF‐IDF。TF‐IDF=TF/DF提取经过筛选后的进程的本文档来自技高网...
大型数据中心服务器应用角色划分的方法

【技术保护点】
一种大型数据中心服务器应用角色划分的方法,其特征在于,该方法包括以下步骤:S1解析一定时间段内的大型数据中心服务器的原始日志数据,上述时间段以天为单位,将非结构化的原始日志数据进行去噪、序列化、转换、解压处理;从原始日志数据中提取进程信息数据,该进程信息数据中至少包括采样的服务器名称,进程ID,CPU使用率,虚拟内存使用率,进程名称,路径,参数七项内容;从原始日志数据中提取服务器的日志采样时间数据,该日志采样时间数据至少包括服务器的名称和服务器的CPU核数两项内容;S2过滤服务器启动时的加载进程,避免此类进程对服务器角色划分的影响,并提取进程特征;对于进程名称以“[”符号开头的进程和虚拟内存使用率为0的进程,认为是服务器启动时的加载进程,过滤不再使用;否则,保留该进程以用于服务器角色划分使用;从S1所述进程信息数据中提取所有服务器的进程信息数据,至少包括各服务器中各进程的进程名称和虚拟内存使用率;利用这些进程信息数据和服务器的日志采样时间数据计算服务器各进程的特征值TF‐IDF;计算服务器各进程的特征信息TF‑IDF,包括:遍历当前时间戳下筛选过的服务器,统计各个服务器采样的频次,统计每台虚机中各个进程出现的频次TF值,统计各个进程在所有采样中出现的频次DF值,则:TF‐IDF=TF/DFTF‑IDF值越大,表明服务器间区分程度越大;S3计算各进程对于服务器分类的贡献度,构建多维度特征矩阵:S3.1首先,统计每个进程的正样本出现频率A、负样本出现频率B、正样本不出现频率C、负样本不出现频率D以及样本总数N:S3.1.1遍历训练数据,统计样本中属于指定角色的正样本数量N1和样本总数N;S3.1.2遍历训练数据,统计所有服务器包含的进程,形成进程集合;S3.1.3遍历进程集合内的所有进程,统计进程出现在指定服务器角色中的正样本出现频率A和出现在非指定角色中的负样本出现频率B;S3.1.4利用A与C不存在交集,且并集为正样本数量,得到C;S3.1.5利用B和D不存在交集且并集为负样本数量得到D;S3.2计算各进程对分类作用的贡献CHI:遍历各进程,对每一个进程利用如下所述公式进行计算,得到CHI值:...

【技术特征摘要】
1.一种大型数据中心服务器应用角色划分的方法,其特征在于,该方法包括以下步骤:S1解析一定时间段内的大型数据中心服务器的原始日志数据,上述时间段以天为单位,将非结构化的原始日志数据进行去噪、序列化、转换、解压处理;从原始日志数据中提取进程信息数据,该进程信息数据中至少包括采样的服务器名称,进程ID,CPU使用率,虚拟内存使用率,进程名称,路径,参数七项内容;从原始日志数据中提取服务器的日志采样时间数据,该日志采样时间数据至少包括服务器的名称和服务器的CPU核数两项内容;S2过滤服务器启动时的加载进程,避免此类进程对服务器角色划分的影响,并提取进程特征;对于进程名称以“[”符号开头的进程和虚拟内存使用率为0的进程,认为是服务器启动时的加载进程,过滤不再使用;否则,保留该进程以用于服务器角色划分使用;从S1所述进程信息数据中提取所有服务器的进程信息数据,至少包括各服务器中各进程的进程名称和虚拟内存使用率;利用这些进程信息数据和服务器的日志采样时间数据计算服务器各进程的特征值TF‐IDF;计算服务器各进程的特征信息TF-IDF,包括:遍历当前时间戳下筛选过的服务器,统计各个服务器采样的频次,统计每台虚机中各个进程出现的频次TF值,统计各个进程在所有采样中出现的频次DF值,则:TF‐IDF=TF/DFTF-IDF值越大,表明服务器间区分程度越大;S3计算各进程对于服务器分类的贡献度,构建多维度特征矩阵:S3.1首先,统计每个进程的正样本出现频率A、负样本出现频率B、正样本不出现频率C、负样本不出现频率D以及样本总数N:S3.1...

【专利技术属性】
技术研发人员:武志昊林友芳万怀宇
申请(专利权)人:北京交通大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1