一种云服务器在线故障诊断方法及装置制造方法及图纸

技术编号:38768016 阅读:7 留言:0更新日期:2023-09-10 10:41
本申请涉及云服务器管理技术领域,涉及一种云服务器在线故障诊断方法及装置;所述方法包括:基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据,并基于多个所述基本运行特征数据与预设阈值进行比较得到异常结果;当初始判断不具有异常时,基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据,并将多个所述监控数据进行归一化处理得到待诊断特征数据;将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型。本申请实施例提供的技术方案中,通过设置初始诊断方案和最终诊断方案,并且在最终诊断方案中通过布置有双向GRU模块,提高了现有技术中针对于云服务器故障诊断的准确性。障诊断的准确性。障诊断的准确性。

【技术实现步骤摘要】
一种云服务器在线故障诊断方法及装置


[0001]本申请涉及云服务器管理
,为一种云服务器管理技术,具体涉及一种云服务器在线故障诊断方法及装置。

技术介绍

[0002]随着计算机技术的进步,需要处理的数据量不断增加,迫使计算能力不断提升,单机存储和运算已经无法达到处理大数据的要求,因而并行计算(Parallel Computing)与分布式计算(Distributed Computing)相续出现,之后网格计算(Grid Computing)也随之出现。
[0003]随着虚拟化技术、存储技术的迅速发展及互联网的成功,计算资源比以往任何时候都更便宜、更强大、更普及,云计算(Cloud Computing)也随之产生。在这种模式中,资源(例如 CPU 和存储)被提供为一般的实用程序,用户可以按需通过 Internet 租用和释放它们。在云计算中,服务供应商的传统角色定义为两种,分别是基于云计算平台的基础设施供应商和基于使用定价模型的租赁资源以及服务供应商,他们从一个或多个基础设施供应商那里租赁资源,为最终客户服务。云计算的出现,对信息技术产生了极大的影响。
[0004]云计算系统采用并行的数据处理方式,可以将一个大数据划分多个子数据,采用多个节点并行进行执行,加快了数据处理的速度,成为当前海量数据处理的主要技术。在云计算系统中,服务器是最核心的部件,云环境下服务由于种类多样、结构复杂,一旦出现故障情况,导致的后果不堪设想。

技术实现思路

[0005]为了解决现有技术中存在的云服务器故障的技术问题,本申请提供一种云服务器在线故障诊断方法及装置,能够对云服务器在运行过程中存在的潜在故障进行识别,并确定对应的故障类型,实现了对于云服务器故障的预测与确定。
[0006]为了达到上述目的,本申请实施例采用的技术方案如下:第一方面,提供一种云服务器在线故障诊断方法,所述方法包括:基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据,并基于多个所述基本运行特征数据与预设阈值进行比较,基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型;当初始判断不具有异常时,基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据,将多个所述监控数据进行归一化处理得到待诊断特征数据;将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型,所述第一时间间隔小于所述第二时间间隔。
[0007]进一步的,所述基本运行特征数据包括CPU使用率、内存使用率和磁盘使用率中的任意一种或多种,所述监控数据包括服务在用户空间占用CPU百分比数据、服务在内核空间占用CPU百分比数据、服务在IO等待占用CPU百分比数据、服务占用内存百分比数据、服务接收数据量、服务发送数据量、服务占用磁盘总量百分比数据和进程响应时间数据。
[0008]进一步的,所述将多个所述监控数据进行归一化处理得到待诊断特征数据,包括:将任意一个所述监控数据以单位时间为维度构建时间序列数据,并获取所述时间序列数据中各维度的均值和方差;基于所述均值和所述方差得到归一化处理后的待诊断特征数据;将多个所述待诊断特征数据进行矩阵构建,得到待诊断特征数据矩阵。
[0009]进一步的,所述待诊断特征数据基于下式进行表示:,其中为待诊断特征数据,为监控数据,为第i行数据的各维度的方差,为是第i行数据的各维度的均值;所述均值基于下式确定:;所述方差基于下式确定:;其中n为特征值总值。
[0010]进一步的,所述故障诊断模型包括依次连接的输入层、CNN层、隐藏层、自注意力模型和分类层,所述CNN层包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层,所述隐藏层包括反向叠加的双层GRU模块,所述双层GRU模块包括多个GRU单元,所述GRU单元包括重置门和更新门,所述分类层采用softmax层。
[0011]进一步的,所述输入层用于提取所述待诊断特征数据的词嵌入向量,所述CNN层用于提取所述词嵌入向量的词向量特征,所述隐藏层用于计算BiGRU层输出的词向量、每个所述词向量分配的概率权重以及隐藏层的状态向量;所述自注意力模型用于对不同概率权重所对应的词向量与各个状态的乘积的累加和,并使用softmax函数做归一化操作得到输出;所述分类层用于计算输出在多个故障上的概率。
[0012]进一步的,所述隐藏层的计算基于下式进行确定:;其中,,分别表示接受d维向量在i时刻的输入门与重置门,表示权重矩阵,表示偏置向量,表示矩阵点乘。
[0013]进一步的,所述分类层为5个神经元组成的softmax层,用于计算输入输出在5类故障上的概率。
[0014]进一步的,在进行所述初始故障类型确定之前还包括对所述基本运行特征数据进行小波降噪处理。
[0015]第二方面,提供一种云服务器在线故障诊断装置,所述装置包括:初始诊断模块,
基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据,并基于多个所述基本运行特征数据与预设阈值进行比较,基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型;数据处理模块,当初始判断不具有异常时,基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据,将多个所述监控数据进行归一化处理得到待诊断特征数据;最终诊断模块,将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型;所述第一时间间隔小于所述第二时间间隔。
[0016]第三方面,提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的方法。
[0017]第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的方法。
[0018]本申请实施例提供的技术方案中,通过设置初始诊断方案和最终诊断方案,并且在最终诊断方案中通过布置有双向GRU模块的神经网络实现对于云服务器运行过程中的显性故障以及隐性故障进行识别与预测,提高了现有技术中针对于云服务器故障诊断的准确性。并且在进行诊断过程中通过对数据进行肩高和归一化处理,提高了针对于云服务器故障诊断的准确度。
附图说明
[0019]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例,其中示例数字在附图的各个视图中代表相似的机构。
[0021]图1是本申请实施例提供的云服务器在线故障诊断方法流程示意图。
[0022]图2是本申请实施例提供的云服本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种云服务器在线故障诊断方法,其特征在于,所述方法包括:基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据,并基于多个所述基本运行特征数据与预设阈值进行比较,基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型;当初始判断不具有异常时,基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据,将多个所述监控数据进行归一化处理得到待诊断特征数据;将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型,所述第一时间间隔小于所述第二时间间隔。2.根据权利要求1所述的云服务器在线故障诊断方法,其特征在于,所述基本运行特征数据包括CPU使用率、内存使用率和磁盘使用率中的任意一种或多种,所述监控数据包括服务在用户空间占用CPU百分比数据、服务在内核空间占用CPU百分比数据、服务在IO等待占用CPU百分比数据、服务占用内存百分比数据、服务接收数据量、服务发送数据量、服务占用磁盘总量百分比数据和进程响应时间数据。3.根据权利要求1所述的云服务器在线故障诊断方法,其特征在于,所述将多个所述监控数据进行归一化处理得到待诊断特征数据,包括:将任意一个所述监控数据以单位时间为维度构建时间序列数据,并获取所述时间序列数据中各维度的均值和方差;基于所述均值和所述方差得到归一化处理后的待诊断特征数据;将多个所述待诊断特征数据进行矩阵构建,得到待诊断特征数据矩阵。4.根据权利要求3所述的云服务器在线故障诊断方法,其特征在于,所述待诊断特征数据基于下式进行表示:,其中为待诊断特征数据,为监控数据,为第i行数据的各维度的方差,为是第i行数据的各维度的均值;所述均值基于下式确定:;所述方差基于下式确定:;其中n为特征值总值。5.根据权利要求4所述的云服务器在线故障诊断方法,其特征在于,所述故障诊断模型包括依次连接的输入层、CNN层、隐藏层、自注意力模型和分类层,所述CNN层包括依次连接的第一卷积层、第...

【专利技术属性】
技术研发人员:刘明辉高立勇
申请(专利权)人:山东智拓大数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1