节点故障模型训练方法、检测方法、设备、介质及产品技术

技术编号:34092998 阅读:61 留言:0更新日期:2022-07-11 21:38
本公开实施例公开了一种节点故障模型训练方法、检测方法、设备、介质及产品,所述方法包括:获取采样节点在采样时刻前的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息;根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征;获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型。该方案可以获取用于对相应节点是否发生节点故障进行预测的目标节点故障模型,提高了预测节点是否会发生故障的准确率,以便对节点实施故障应对措施,有助于提高节点的可靠性。提高节点的可靠性。提高节点的可靠性。

【技术实现步骤摘要】
节点故障模型训练方法、检测方法、设备、介质及产品


[0001]本公开涉及网络
,具体涉及节点故障模型训练方法、检测方法、设备、介质及产品。

技术介绍

[0002]随着计算机技术的不断发展,人们在日常生活中可以通过具有数据处理功能的节点例如计算机、服务器等获取分别丰富的资源,节点的硬件组成通常包括运算器、控制器、存储器、输入设备和输出设备,其中,存储器可以被分为内存和外存,内存一般用来存放节点当前正在使用的,或随时要用的程序、数据等。当内存出现错误或故障时,可能会导致节点出现不响应或宕机,即出现节点故障。目前,可以基于错误检查和纠正(Error Correcting Code,ECC)技术对节点内存中的错误进行检查和纠正。其中,当内存出现可纠正错误(Correctable Error,CE)时,可基于ECC技术对其进行纠正;而当内存出现不可纠正错误(Uncorrectable Error,UCE),即超出ECC纠错能力的内存错误时,会导致系统不响应或系统崩溃,进而导致出现节点故障。因此,为了避免因出现节点故障而导致节点上正常运行的程序受到影本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种节点故障模型训练方法,其中,所述方法,包括:获取采样节点在采样时刻前的采样可纠正错误(CE)数据、所述采样节点在所述采样时刻后的采样故障数据以及所述采样节点的采样静态配置信息,所述采样CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;根据所述采样静态配置信息以及所述采样CE数据进行特征提取,以获取采样CE特征;获取待采样节点故障模型,并将所述采样CE特征作为输入,将所述节点故障数据作为输出,对所述待采样节点故障模型进行训练,以获取目标节点故障模型。2.根据权利要求1所述的节点故障模型训练方法,其中,所述采样CE特征包括根据所述采样静态配置信息提取的静态配置特征、根据所述采样CE数据中的CE发生时间提取的CE时序特征以及根据所述采样CE数据中的CE发生内存地址提取的CE空间特征。3.根据权利要求2所述的节点故障模型训练方法,其中,所述CE时序特征,是通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,并基于至少一种时序特征提取算法,根据所选取的CE发生时间进行特征提取获取的。4.根据权利要求2所述的节点故障模型训练方法,其中,所述CE空间特征用于指示在同一个逻辑存储库(bank)内,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系的次数。5.一种节点故障检测方法,其中,所述方法包括:获取目标节点的目标静态配置信息以及所述目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,检测CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;根据所述目标静态配置信息以及所述检测CE数据进行特征提取,以获取检测CE特征;将所述检测CE特征输入目标节点故障模型,以获取所述目标节点故障模型输出的预测节点故障数据。...

【专利技术属性】
技术研发人员:王雨农
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1